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Estudos Descritivos e 
Linguistica de Corpus: 
abrindo caminhos para 
a descrição linguistica 


Ariel NovodvorskI 
Joel Victor Reis Lisboa” 
Raphael Marco Oliveira Carneiro” 


1 Doutor em Estudos Linguísticos (UFMG) com pós-doutorado pela UFRGS. Professor Associado do Instituto 
de Letras e Linguística da Universidade Federal de Uberlândia. Docente do Programa de Pós-Graduação 
em Estudos Linguísticos, vinculado à Linha 1: Teoria, descrição e análise linguística. Lattes: Nttp://lattes. 
cnpqg.br/2882362453694/98. E-mail: arivorski@ufu.br 


2 Doutorando e Mestre em Estudos Linguísticos pela Universidade Federal de Uberlândia. Lattes: http:// 
lattes.cnpqg.br//05/5/3383244824. E-mail: joelvictorlisboagmail.com 


3 Doutorando e Mestre em Estudos Linguísticos pela Universidade Federal de Uberlândia. Lattes: nttp:// 
lattes.cnpqg.br/2014869652199855 E-mail: raphael.olicagmail.com 


É com imenso prazer que apresentamos o segundo número de Estudos Exploratórios em 
Linguística de Corpus. Assim como o primeiro (NOVODVORSKI; LISBOA, 2021), esta publicação 
reúne estudos exploratórios realizados no âmbito da disciplina Estudos Descritivos e Linguística 
de Corpus, ofertada pelo Programa de Pós-Graduação em Estudos Linguísticos (PPGEL) do 
Instituto de Letras e Linguística (ILEEL) da Universidade Federal de Uberlândia (UFU). 


Assim como na publicação anterior, a oferta da disciplina buscou despertar a percepção e 
a sensibilidade dos pós-graduandos para fatos e fenômenos linguísticos, por meio da utilização 
empírica e prática de ferramentas e recursos próprios da Linguística de Corpus (LC), assumida 
tanto por sua relevância enquanto abordagem como por seu potencial teorizador, somados ao 
conjunto de procedimentos metodológicos que a caracterizam. Para além de um eixo inicial 
norteador quanto à perspectiva, história e alcances da LC, um segundo segmento no plano 
da disciplina buscou nuclear as etapas e princípios envolvidos na compilação de corpora, 
levantamento e sistematização de dados, entre outros passos, em que buscamos consolidar 
percursos possíveis para pesquisas exploratórias guiadas/baseadas em corpus. O terceiro 
eixo do programa da disciplina foi pensado no intuito de tentar cobrir tanto quanto possível 
a diversidade de trabalhos práticos em que foi testada a aplicabilidade da LC em pesquisas 
de base empírica. Desse modo, cada uma das leituras realizadas durante a disciplina foi um 
convite para a testagem de ferramentas, para a configuração e ajuste de instrumentos, para 
a exploração de dados refazendo ou (re)criando caminhos de pesquisa. 


Os trabalhos que compõem este volume são resultantes da atividade final da disciplina, 
a saber: o desenvolvimento de uma breve pesquisa num corpus a definir, em que fossem 
empregados princípios, procedimentos e ferramentas da LC, culminando na escrita de um 
artigo, com critérios definidos. Para além desse, que foi o trabalho final, e da participação nas 
discussões teórico-metodológicas durante as aulas, também foi desenvolvido coletivamente 
um Vocabulário de termos e conceitos-chave da disciplina, com auxílio dos recursos do Moodle 
institucional da UFU. Outra atividade da disciplina foi a realização de um Seminário, para 
apresentação individual das pesquisas que dariam origem aos trabalhos finais. Tudo precisou 
ser realizado em formato remoto, em decorrência da continuidade do estado de pandemia 
pela COVID-19 durante o ano de 2021. 


Organizamos esta publicação objetivando demonstrar a produtividade da LC para estudos 
linguísticos de caráter descritivo, bem como para evidenciar sua relevância na formação 
(continuada) de pesquisadores da Linguística e Linguística Aplicada. As pesquisas exploratórias 
que compõem este livro vinculam-se a diferentes áreas, como Dialetologia, Lexicologia, 
Sociolinguística, Ensino de Línguas, Terminologia, Tradução, Análise do Discurso, Linguística 
Textual, Linguística Computacional, dentre outras. Os corpora analisados são, também, de 
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natureza diversa, incluindo corpora monolingues e bilingues, orais transcritos, de entrevistas, 
de comentários, de letras de música, acadêmicos, literários, jornalísticos, dentre outros. A 
seguir, sintetizamos os estudos exploratórios apresentados em cada capítulo desta publicação. 


No capítulo intitulado O suposto antagonismo de vida e morte em corpora: otimismo em 
Hay e pessimismo em Cioran à luz da Linguística de Corpus”, Lucas Amâncio Mateus descreve 
os usos de uma amostra de unidades lexicais relacionadas aos temas das obras do filósofo 
Emil Cioran e da autora motivacional Louise Hay. Por meio das ferramentas do WordSmith 
Tools 6.0 (SCOTT, 2012), o estudo ressalta as visões de mundo dos diferentes autores e como 
essas visões estão lexicalmente constituídas em corpora de suas obras mais conhecidas. 


Na sequência, Lidiane Carlos Ramos, em Uma nova leitura de Rayuela: análise lexical 
baseada em corpus”, analisa o romance de Julio Cortázar por meio do programa WordSmith 
Tools 4.0 (SCOTT, 2004) e suas três ferramentas, Concord, KeyWords e WordList. Com base na 
LC e na Teoria de Metáforas Conceptuais, o estudo evidencia a relevância de somatismos na 
composição das obras cortazarianas, bem como a proficuidade da utilização de ferramentas 
computacionais na análise de campos lexicais em corpora literários. 


Em “O vocabulário distópico em Fahrenheit 451: uma análise pautada na Linguística de 
Corpus , Terezinha de Assis Oliveira apresenta um recorte da análise dos cem substantivos 
comuns mais frequentes em um corpus literário composto pela obra Fahrenheit 451 (BRADBURY, 
1953). Com o auxílio das ferramentas WordList e Concord do WordSmith Tools 6.0 (SCOTT, 2012), 
a autora analisa o corpus em busca de compreender como esses substantivos se relacionam 
e o que revelam sobre a obra, focalizando posteriormente suas análises no substantivo casa. 


No capítulo seguinte, intitulado O nome Barack em Minha História (2018) sob a perspectiva 
sistêmico-funcional”, Sarah Cristina de Oliveira Sebba realiza uma análise sistêmico-funcional 
em torno do nome próprio Barack, especificamente pelo sistema da TRANSITIVIDADE, com 
alcance nos Processos, Participantes e Circunstâncias. A autora se serve dos recursos do 
programa LancsBox (BREZINA; WEILL-TESSIER; McENERY, 2020) para o tratamento e análise do 
corpus. Com base na análise das orações selecionadas para o capítulo, a autora se questiona 
acerca da humanização de Barack no texto de Michelle Obama. 


Victor Mariotto Palma, em “Análise de orações existenciais em corpus literário bilíngue”, 
apresenta os resultados parciais de uma análise de orações existenciais prototípicas em 
língua inglesa e de suas traduções em um corpus literário paralelo bilíngue (inglês-português) 
unidirecional. O corpus é composto pelos contos wildianos da coletânea A house of pomegranates, 
em língua inglesa, e de duas traduções para o português brasileiro. As análises foram realizadas 
por meio do WordSmith Tools 4.0 (SCOTT, 2004) e do Wordfast Anywhere (WORDFAST, 2021). 


10 | 


Em Como se traduz língua de acolhimento ? Análise exploratória em corpus paralelo 
bilíngue”, por meio da análise de um corpus de resumos e palavras-chave de dissertações e 
teses nas línguas inglesa e portuguesa, Joel Victor Reis Lisboa descreve como uma amostra 
de unidades fraseológicas especializadas da área de Português como Língua de Acolhimento 
foram traduzidas. Embasada por estudos em Terminologia e LC, a investigação evidencia a 
proficuidade dessa combinação teórico-metodológica para a exploração de equivalentes 
terminológicos. 


Na sequência, Mayra Natanne Alves Marra, em AVALIATIVIDADE em corpus de comentários: 
um olhar sobre o feminino” realiza uma análise em um corpus de 75 comentários do vídeo 
“Xerecou: empoderamento feminino na linguagem (XERECOU, 2021), publicado no YouTube. A 
análise, realizada por meio das ferramentas WordList, KeyWords e Concord do WordSmith Tools 
6.0 (SCOTT, 2012) e amparada pela Linguística Sistêmico-Funcional, focaliza a criatividade lexical 
em torno do substantivo xereca, bem como descreve escolhas lexicogramaticais atitudinais 
utilizadas para expressar avaliações. 


No capítulo intitulado “O uso do vocábulo bitch em letras de rap: uma análise em corpus, 
Mariana Souza Santos descreve as nuances semânticas de bitch a partir de dois corpora de 
letras de músicas interpretadas por rappers americanos sob a variável independente sexo. Com 
a base teórico-metodológica da Estilística de Corpus e da Sociolinguística, a pesquisa revela 
como a variável sexo pode influenciar as escolhas linguísticas e as conotações adquiridas pelo 
vocábulo em análise. 


Em Contribuições da Linguística de Corpus para a sala de aula: prosódia semântica do item 
lexical mulher”, por meio da análise de um corpus composto por letras de canções sertanejas 
brasileiras, Cássia Beatriz de Moraes Silva analisa usos do item lexical mulher a fim de identificar 
sua prosódia semântica e propor uma sequência didática. A metodologia inclui o uso das 
ferramentas WordList e Concord do programa WordSmith Tools 4.0 (SCOTT, 2004), com o 
embasamento teórico da Lexicologia e da Lexicultura. 


Roberta Gê-Acaiaba, em A Língua da Tabatinga: exploração inicial à luz da Linguística de 
Corpus”, analisa um corpus oral sincrônico transcrito, oriundo de 10 entrevistas realizadas 
com cidadãos de Bom Despacho-MG, objetivando analisar a presença do léxico Tabatinga nas 
produções linguísticas dos entrevistados. As análises apresentadas, realizadas por meio das 
ferramentas WordList e Concord do WordSmith Tools 4.0 (SCOTT, 2004) e sustentadas pela 
Sociolinguística Variacionista, focalizam os substantivos mais frequentes no corpus, cuete e 
ocaia, bem como a polissemia apresentada nas utilizações do verbo tipurar. 
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Em “A identificação de metáforas em corpus jornalístico comparável bilíngue de opinião 
e política, por meio de análises impressionísticas e hipertextuais, Wagner da Cunha Nunes 
realiza a identificação, o mapeamento dos domínios e a análise de duas expressões metafóricas 
retiradas de um corpus comparável bilingue (português-espanhol) composto por textos das 
seções de opinião e política de dois jornais brasileiros (Estadão e Folha de São Paulo) e dois 
argentinos (Clarín e Perfil). O estudo exploratório apresentado está embasado pela Teoria da 
Metáfora Conceptual, de Lakoff e Johnson (1980), e foi realizado por meio do Sketch Engine 
(KILGARRIFF et al., 2003). 


Na sequência, em Elos coesivos na tese e indicação de impessoalidade: estudo exploratório 
em corpus de redações estilo ENEM, Rosena Caixeta Silva Rodrigues de Sousa explora, com o 
auxílio das ferramentas WordList e Concord do WordSmith Tools 6.0 (SCOTT, 2012), um corpus 
composto por sete redações que alcançaram nota máxima no Exame Nacional do Ensino Médio 
(ENEM). A autora analisa as relações entre elos coesivos e impessoalidade na construção 
das teses dessas redações, focalizando, posteriormente, suas discussões na utilização do 
conectivo porém. 


Heitor Carvalho de Almeida Neto, em Coletando corpus da internet com auxílio de scripts 
de programação, propõe uma metodologia de coleta, conversão e armazenamento de textos 
digitais que inclui o uso da linguagem de programação Python, exemplificada com um corpus de 
obras de Machado de Assis. O estudo mostra como técnicas computacionais podem facilitar os 
procedimentos metodológicos da pesquisa com corpus, permitindo que o pesquisador otimize 
o processo computacional e dedique-se mais aos aspectos analíticos de sua investigação. 


No capítulo intitulado Exploração do significado do lexema medo: uma análise pautada na 
Análise do Discurso e na Linguística de Corpus, Thaís dos Santos Souza apresenta um estudo 
exploratório localizado na interface entre Linguística Aplicada e Criminologia. Por meio das 
ferramentas WordList e Concord do WordSmith Tools 4.0 (SCOTT, 2004), a autora analisa um 
corpus de transcrições de 21 entrevistas, objetivando explorar o campo semântico do lexema 
medo e compreender os significados e as relações físicas e sociais atreladas a este lexema 
nos discursos dos sujeitos entrevistados. 


Finalizando o compilado de estudos exploratórios, Maria de Oliveira Rodrigues, em 
“Linguística de Corpus e C-ORAL BRASIL: análise da fala espontânea em Belo Horizonte-MG, 
descreve usos do português brasileiro por meio de um corpus oral da fala belo-horizontina. 
Ao comparar as diferentes visões da gramática tradicional e da gramática descritiva, o estudo 
mostra a presença marcante de variações na fala em relação ao aspecto da concordância 
verbal. 


12 | 


Sem mais delongas, esperamos que a leitura deste novo volume seja enriquecedora e 
motivadora para a contínua exploração do mundo fascinante da linguagem verbal. 
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O suposto antagonismo 
de vida e morte em 
corpora: otimismo em Hay 
e pessimismo em Cioran 
a luz da Linguistica de 
Corpus! 


Lucas Amâncio Mateus? 


1 Apoio e financiamento: Fundação de Amparo à Pesquisa do Estado de Minas Gerais — FAPEMIG. 


2 Doutorando em Estudos Linguísticos pela Universidade Federal de Uberlândia. Lattes: hitp://lattes.cnpa. 
br/0101102792314230. E-mail: lucas.mateuscufu.br 


1 Introdução 


Ao observarmos algumas literaturas com abordagens antagônicas — a do pessimismo e a 
do otimismo — percebemos que nelas há concepções de mundo e conceitos dualistas como 
vida e morte, que merecem ser investigados e analisados com maior profundidade, a fim de se 
perceber como as noções são constituídas e quais suas definições subjacentes, que podem 
ser expressas até mesmo por meio de metáforas, em alguns casos. Para isso, os princípios e 
as ferramentas da Linguística, mais especificamente da Linguística de Corpus (LC), podem 
auxiliar com eficácia a detecção de quais palavras possuem maior peso em cada um desses 
posicionamentos, além de permitir a identificação de suas frequências, seus ambientes textuais, 
usos, concordâncias, definições diretas (marcadas por contextos definitórios) e definições 
indiretas (presentes em contextos explicativos). 


Isso posto, o objetivo deste capítulo é contrastar algumas noções aparentemente opostas, 
aquelas que foram mais frequentes em corpora compostos de obras de destaque dos autores 
Emil Cioran (1911-1995) e Louise Hay (1926-2017). A partir de nossas análises, foi possível perceber 
as construções conceituais pessimistas e otimistas dos autores à luz da LC. 


Emil Cioran foi reconhecido pelo site de crítica literária do Los Angeles? como tendo sido 
o maior niilista do ocidente, desde Nietzsche. Cioran é um filósofo romeno, famoso por seu 
pessimismo, niilismo”, antinatalismo e ceticismo. Seus interesses de estudo e publicações 
repousam sobre conceitos como morte, angústia, absurdo, infinito, insignificância, caos, agonia, 
suicídio e loucura. 


Louise Hay foi uma autora motivacional”, estadunidense. Ela é considerada uma das 
fundadoras do gênero autoajuda e foi precursora em publicações dessa categoria. Suas obras 
giram em torno dos temas do autodesenvolvimento e do poder dos pensamentos otimistas, 
e alguns de seus livros são consideradas best-sellers devido ao grande alcance quanto ao 
número de leitores. Seus livros abordam concepções de saúde emocional, amor, vida, cura e 
afirmações positivas. 


No bojo desse suposto antagonismo, esta pesquisa procura investigar se há uma definição 
específica para os termos vida e morte nas obras de Cioran e de Hay. Nesse caso, a hipótese 
subjacente é que corpora escritos de textos autênticos desses autores oferecem a ambiência 
necessária para levantamento de tais conceitos, expressos por meio de seus itens lexicais 


3 Para informações mais detalhadas sobre o autor e as críticas tecidas a partir de seu trabalho, consultar Bradatan (2016). 


4 De acordo com o dicionário Michaelis Online, o niilismo é o pensamento que considera as crenças e os valores tradicionais da sociedade 
como infundados e inúteis, enfocando assim noções de não existência. Disponível em: https://michaelis uol.com.br/moderno-portugues/ 
busca/portugues-brasileiro/niilismo/. Acesso em: 22 out. 2021. 


5 Para mais detalhes sobre Louise Hay, consultar informações disponíveis em: https://refornari.com/louise-hay-salba-mais e/ou em: https:// 
www.louisehay.com/about/. Acesso em: 22 out. 2021. 
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que se constituem como termos dentro das obras. Outrossim, os contextos contidos nos 
corpora permitirão perceber que a especificidade das definições de vida e morte para esses 
autores está diretamente relacionada a suas visões de mundo, que entre si são contrastantes: 
a concepção cética de Cioran e a otimista de Hay. 


De antemão, temos a hipótese prévia de que a análise do corpus de Hay estará cingida 
de uma temática espiritualista, apregoando a existência divina e de valores sociais de paz e 
esperança, já que os títulos de suas obras indicam esse estilo. Em contraposição, a natureza das 
obras de Cioran permite-nos hipotetizar que, na tratativa de seu corpus de essência pessimista, 
tornar-se-á evidente a ausência de valores espirituais e a ênfase em tendências negativas e 
derrotistas. Tais premissas, no entanto, poderão ser validadas ou refutadas no decorrer do 
trabalho, realizado sob o critério da LC. 


2 Fundamentação teórica 


A partir do que ficou estabelecido por Tagnin (2005, p. 21), considera-se que a LC é um 
ramo específico do saber, que possibilita a investigação e oferece uma metodologia que veio 
facilitar muito a identificação das unidades convencionais da língua, posição consoante com a 
de Berber Sardinha (2004, p. 37) de que a LC é uma maneira de se chegar à linguagem". Stubbs 
(2001), por sua vez, concebe a LC como um instrumento que permite que enxerguemos melhor 
as amostras linguísticas e tratemos um volume maior de dados de maneira mais ágil, eficaz 
e precisa. Ela é também definida como uma metodologia para a investigação das línguas e 
da linguagem, a qual permite levar a cabo investigações empíricas em contextos autênticos. 
(PARODI, 2010, p. 15 apud BEILKE, 2016, p. 70). 


De acordo com Assunção e Araújo (2019), há autores, no campo de ação de diversas áreas 
da Linguística, que consideram a LC como uma abordagem e uma metodologia. Neste estudo, 
a LC é tomada como uma abordagem, por admitir que cada corpus que tive a chance de 
examinar, mesmo pequeno, ensinou-me fatos que não poderia imaginar encontrar de nenhum 
outro modo (FILLMORE, 1992, p. 35 apud BEILKE, 2016, p. /4). Portanto, compreendemos a LC 
não só como uma metodologia empírica eficaz para os estudos descritivos, mas também como 
uma abordagem com características e princípios próprios que contribui para diversos tipos 
de investigações da linguagem, ainda que em alguns momentos seja necessário focar mais 
em seu aspecto metodológico, a fim de permitir a eficiência dos procedimentos e garantir o 
alcance dos objetivos de pesquisa, conforme se dá na circunscrição restrita do presente texto. 


Tendo em vista nossa busca pelas definições de vida e morte em Cioran e Hay, nos apoiamos 
na conceitualização de contextos definitórios e explicativos formulada por Aubert (2001). Alguns 
contextos definicionais foram identificados sob a forma de metáforas, portanto, como base de 
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nossas análises, partimos dos postulados de Berber Sardinha (2007, 2008), que disserta sobre 
dois tipos de metáforas. Dentre os demais tipos existentes, ele aborda brevemente as metáforas 
linguísticas, que são, conforme o autor, aquelas constituídas de expressões metafóricas e que 
formam uma unidade de sentido. Na escrita, elas formam uma oração, já na fala, formam um 
enunciado. Para o autor, trata-se de expressões que contêm palavras usadas metaforicamente, 
como, por exemplo, ele subiu na vida. Nesse caso, as metáforas linguísticas são do tipo que 
podem ou não terem sido entendidas na mente do falante/ouvinte como metáfora. 


Em seguida, Berber Sardinha (2007, 2008) enfoca seu objeto de interesse que são as metáforas 
conceituais, o que também nos interessa no presente estudo. Portanto, adotamos a definição 
desse linguista, que as entende como expressões linguísticas que são a manifestação de uma 
metáfora conceptual, ou seja, advêm de uma conceituação metafórica. Segundo o exemplo 
do autor, nosso casamento está indo muito bem” (BERBER SARDINHA, 2007, p. 107) é uma 
expressão que advém da metáfora conceptual AMOR É UMA VIAGEM, pois ela contém um 
domínio (fonte e alvo), mapeamentos (as relações feitas entre os domínios) e os desdobramentos 
(as inferências que podemos fazer a partir de uma metáfora conceptual). 


Lembramos também que “existem metáforas conceptuais que subjazem às metáforas 
linguísticas identificadas na concordância (BERBER SARDINHA, 2007, p. 108). O autor também 
descreve o que e como são as metáforas conceituais: As metáforas conceptuais não são 
verbalizadas como tais. [...] As metáforas conceptuais são representações mentais dos conceitos. 
(BERBER SARDINHA, 2008, p. 98). 


Portanto, em suma, o autor esclarece que as metáforas conceptuais expressam conceitos 
que são metafóricos. Com base nisso, quando buscamos as noções de vida e morte em 
ambos os corpora, levamos em conta essas considerações e observamos se elas apareceram 
metaforizadas ou até mesmo expressas nos contextos definitórios e explicativos por meio de 
metáforas conceituais. Adicionalmente, conforme explica Berber Sardinha (2008), os softwares 
utilizados na LC por si só não podem encontrar ocorrências de metáforas, o que o analista 
pode fazer é buscar por palavras que normalmente possuem usos metafóricos. 


3 Metodologia 


O primeiro procedimento foi compilar dois corpora, um de cada autor escolhido, para 
obtermos amostras legítimas a respeito da nossa temática. Sendo assim, compilamos 
cinco obras* de Cioran, a saber: Nos Cumes do Desespero, O Livro das Ilusões, Breviário de 


6 Os títulos originais em romeno e francês, com suas primeiras datas de publicação, são: Pe culmile disperării (1934), Cartea amágirilor (1936), 
Précis de décomposition (1949), Syllogismes de lamertume (1952). Já a entrevista A Filosofia Irritada (idioma original desconhecido) fora 
publicada em forma de livro em 1995, concedida ao escritor alemão Heinz-Norbert Jocks, publicada no nº 5 da revista Kulturchronik, editada 
em Bonn pela InterNationes. 
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Decomposição, Silogismos da Amargura e A Filosofia Irritada — entrevista publicada em forma 
de livro. Igualmente, de Hay, reunimos cinco obras” conforme se segue: Você pode curar sua 
vida (1984), Cure seu corpo (1984), O poder das afirmações positivas (2005), Está tudo bem 
(2013) e A vida ama você — / passos para curar sua vida (2014). 


Após a compilação e organização dos dois corpora, realizamos a análise dos dados por 
meio do WordSmith Tools versão 6.0 (SCOTT, 2012) —- doravante WST, uma suíte de ferramentas 
para realização de análises lexicais, tais como geradores de lista de palavras, de linhas de 
concordância, de lista de palavras-chave, dentre outras. 


O primeiro passo foi configurar o software para a língua portuguesa e, em seguida, gerar 
duas listas de palavras, uma de cada corpus. Após salvar a lista do Corpus Cioran e do Corpus 
Hay, prosseguiu-se para a aplicação de stoplistº, a fim de ausentar da listagem as palavras 
gramaticais, que embora sejam também relevantes, não são o foco deste capítulo, que focaliza 
as palavras lexicais. Na Figura 1, a seguir, são apresentadas ambas as listas agrupadas após 
esse tratamento. 


Figura 1: Recorte das listas de palavras do Corpus Cioran e do Corpus Hay após indexação da stoplist. 


(4 CIORAN CORPUS SL files.Ist (4) HAY CORPUS. SL files.st 
File Edit View Compute Settings Windows Help File Edit View Compute Settings Windows Help 


Word Freq. % Texts % Lemmas Set N Word Freq. % Texts % Lemmas Set 


RR 2000 1,21 51000 TAE 5 100,0 
VIDA 995 [0,58 5 100,0( VIDA 1.544 10,95 5 100,0 
MUNDO 710 0,41 5 100,0 837 0,51 5 100, 

SER 706 0,41 5 100,0 625 0,38 5 100, 
QUANDO 509 0,30 5 100,0 616 0,38 5 100,0 
MORTE 505 0,29 5 100,0 614 0,38 5 100, 
HOMEM 471 0,27 5 100,0 592 0,36 5 100, 
PODE 391 0,23 5 100,0 546 0,34 4 80,00 
TEMPO 385 0,22 5 100,0 534 0,33 5 100, 

SÃO 369 0,21 5 100,0 509 0,31 5 100, 

AMOR 302 0,18 480,00 474 0,29 5 100, 
EXISTÊNCIA 280 0,16 5 100,0 385 0,24 5 100,0 
HÁ 279 0,16 5 100,0 379 0,23 3 60,00 

HOMENS 255 0,15 48000 360 0,22 5 100,0 
TEM 248 0,14 5 100,0 338 0,21 5 100,0 
ESPÍRITO 242 0,14 4 80,00 PENSAMENTOS 321 0,20 5 100, 
DEUS 222 0,13 5 100,0 VER 315 0,19 5 100, 

TER 205 0,12 5 100,0 SAÚDE 311 0,19 5 100,0 

ALMA 199 0,12 48000 PODE 301 0,19 5 100,0 

ESTÁ 195 0,11 5 100,0 SEGURO 301 0,19 4 80,00 
CONSCIÊNCIA 184 0,11 5 100,0 PESSOAS 297 0,18 5 100, 
MEDO 180 0,10 5 100,0 RAIVA 292 0,18 4 80,00 

SEJA 177 010 48000 AND 263 0,16 1 20,00 
SOFRIMENTO 177 010 48000 TER 263 0,16 5 100, 
HISTÓRIA 176 0,10 5 100,0 AFIRMAÇÕES 0,16 5 100, 


— 
-— 


oo O G A SN 
OLO ml LA Vl Cd OENE Cm 


Fonte: WordList. 


7 Seguem os títulos originais em inglês, com suas primeiras datas de publicação: You can heal your life (1984), Heal your body: the mental 
causes for physical illness and the metaphysical way to overcome them (1984), | can do it: how to use affirmations to change your life (2004), 
All is well: heal your body (2013) e Life loves you: 7 spiritual experiments to heal your life (2014). 


8 Stoplist: lista de palavras que é anexada ao corpus e faz uma limpeza no texto ao excluir palavras que nela se encontram” (CARVALHO, 
2015, p. 80). 
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Como é possível observar na Figura 1, o item lexical mais frequente em ambos os corpora 
é o verbo ser conjugado como é", totalizando, respectivamente, 2.090 ocorrências no Corpus 
Cioran e 1.680 ocorrências no Corpus Hay, seguido pelo item vida, o segundo mais frequente 


em ambos os corpora. 


A etapa seguinte foi a seleção e preparação de um corpus de referência. De acordo com 
Berber Sardinha (2004), o corpus de referência deve ser em torno de cinco vezes maior que o 
corpus de estudo, a fim de funcionar como um parâmetro para a produção de palavras-chave 
em contraste com a lista de palavras do corpus de estudo. Para isso, utilizamos textos das 
áreas de humanas, principalmente de religiões e filosofia, disponíveis no Lácio-Webº. 


Logo após, procedemos à geração das palavras-chave, passamos a gerar linhas de 
concordâncias a partir das palavras mais frequentes e das palavras-chave dos corpora. 
Realizamos várias buscas e fizemos observações comparativas, além de salvar algumas telas 
com os resultados obtidos em forma de linhas de concordância de buscas como vida, vida 
é, vidas e vidas são. Para as buscas de vidas são, morte e morte é só foram encontradas 
concordâncias resultantes no Corpus Cioran, por isso, realizamos o agrupamento de todas 
as palavras do campo lexical da morte no Corpus Hay (morre, morrendo, morrera, morreram, 
morrerem, morreriamos, morri, mortais, mortalidade, mortes e morto), já que a palavra morte 
no singular possui apenas 19 ocorrências. Então geramos linhas de concordâncias a partir 
delas, a fim de verificarmos rapidamente como essas noções estariam conceituadas nas obras 


da autora. 


4 Resultados e discussão 


Como resultado da aplicação de nossos procedimentos metodológicos, obtivemos alguns 
dados, os quais passamos a descrever de agora em diante. 


O processamento dos dados resultou nas estatísticas de 1/2.341 tokens (itens) e 17.708 
types (formas) do Corpus Cioran e de 160.618 tokens e 14109 types do Corpus Hay. A Figura 2 
comprova essas informações. 


9 Disponível em: http://14510/185.1/5:22180/lacioweb/index.htm. Acesso em: 1 nov. 2021. 
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Figura 2: Resultados estatísticos do Corpus Cioran e do Corpus Hay. 


Wg CIORAN CORPUS WL files.Ist 
File Edit View Compute Settings Windows Help 


tokens tokens used for types (distinct typeftoken STTR 
N text fe {running word ist words) ratio (TTR) standardise std dev. 
words) in TIR 


o Overall 172.458 [172.34 10,27 47,75 48,61 
2 Emil Cioran - Silogismos da amargura-F 16.163 16.132 024 26,66 33,31 42,80 
* Emil-Cioran-Breviário-de-decomposiçãe 57.293 57.259 10.269 17,93 51,76 46,91 
* Emil-Cioran-Nos-Cumes-do-Desespero 32.307 32.299 5.308 16,43 4685 50,19 
* Emil-Cioran-O-livro-das-ilusões-Rocco-l 65.006 64.968 8.102 12,47 43,28 55,54 
8 Emil-Cioran A-Filosofia-lrritada-by- z-lil 1.689 1.683 T13 42,36 48,70 

(4) HAY CORPUS WL files.Ist 


File Edit View Compute Settings Windows Help 


tokens tokens used types typetoken standardised STIR 
N text fle (running for word list (distinct ratio (TTR) TR  stddev. 
words) in 


words) 
Do Overall 162603 8,78 4485 54,29 
2 Louise Hay Está-tudo-bem- z-liborg 78.186 76.593 9463 12,35 4494 52,25 
3 Louise Hay Você-pode-curar-sua-vida 50200 50091 6549 13,07 4521 5300 
* Louise Hay Cure-Seu-Corpo-z-liborg 15.185 15062 2820 18,72 43,67 50,79 
5 Louise Hay Poder das Afirmações Po 11.196 11141 2309 20,73 4480 4948 
8 Louise Hay A vida ama você - 7 passt 7.836 REI 1.932 24,99 43,81 47,70 


Fonte: Captura de tela dos corpora no WST 6.0. 


Os dois corpora estão equilibrados pela quantidade de livros selecionados, tendo em vista 
que não é possível ter controle sobre a quantidade de palavras deles, já que utilizamos suas 
obras completas e mais famosas. Acredita-se que a variação na quantidade de itens entre os 
corpora se deve ao fato de que o gênero filosófico discorre comumente de forma mais difusa e 
subjetiva sobre um tema, enquanto a modalidade autoajuda costuma ser mais direta e objetiva, 
residindo aí já um primeiro contraste. 


De modo geral, a observação das listas e das linhas de concordância demonstrara que as 
noções que investigamos — vida e morte — estão presentes nas obras, principalmente vida, 
que é muito frequente, visto que há uma satisfatória quantidade de contextos definitórios 
(marcados pela presença do verbo ser conjugado como é) e, também, de contextos explicativos, 
que descrevem as noções em questão. Sendo assim, consideramos os corpora representativos 
para o escopo desta investigação. 


Geramos duas listas de palavras-chave, uma de cada um dos corpora, cujos recortes estão 
apresentados na Figura 3. 
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Figura 3: Recorte das listas de palavras-chave do Corpus Cioran e do Corpus Hay. 


ud HAY CORPUS KWL files. kws 
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CIORAN CORPUS KWL, files kws 
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SOU 
QUANDO 
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OF 
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346 
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385 
379 
360 
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o 45 
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0,06 4.899, 
0,13 483,0: 
2.836, 
2617, 
0,04 1.180, 
2270, 
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2.101, 
1.923, 
0,07 367,6! 
0,02 1.011, 
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1.360, 
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1.380, | 
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0,07 1236: 
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Fonte: KeyWords. 


Constatou-se a presença dos seguintes itens lexicais e suas frequências dentre as 25 
palavras-chave em ambos os corpora: Corpus Cioran - vida (995), morte (505), amor (302), 
Deus (222) e medo (180); Corpus Hay - vida (1.544), amor (614) e medo (4/4); como nesse último 
as palavras morte e Deus não apareceram dentre as palavras-chave, buscamos por ordem 
alfabética em todo o corpus a fim de verificar se elas estariam em alguma medida presentes, 
conforme demonstra a Figura 4, abaixo. 


Figura 4: Presença de palavras do grupo lexical de morte e da palavra Deus no Corpus Hay. 
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Fonte: WordList. 
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Também foi realizada uma busca para saber se haveria a presença do plural vidas nos corpora, 
talvez pressupondo a crença na existência de mais de uma vida e na ideia de reencarnação, 
e foram encontradas em ambos: 9 ocorrências para vidas no Corpus Cioran e 33 no Corpus 
Hay". Para Louise Hay, a citação de vidas encaixa-se num contexto geral e amplo, ao ressaltar 
que podemos modificar e melhorar nossas vidas, a partir de mudanças na forma de pensar. A 
ideia de reencarnação vem apenas com uma citação, em que a autora preconiza a regressão 
a vidas passadas - aludindo então à possibilidade de transmigração da alma — como uma 
técnica benéfica para se trabalhar com a mente. Já no Corpus Cioran, vidas é um termo tratado 
como um simples plural de vida, no entanto, é atrelado a seu estilo pessimista, quando o autor 
assevera que as vidas neste mundo são oprimidas, asfixiadas e vestidas de luto. Há tão-somente 
uma menção em que vidas promove a possibilidade reencarnatória, quando em um trecho o 
autor diz que no passado vivera várias vidas. 


No Corpus Cioran, o item morte ocorre 505 vezes, sendo o segundo com maior chavicidade. 
Como palavra-chave, ele não ocorre no Corpus Hay, apenas a palavra mortalidade, com 11 
ocorrências; nenhuma outra palavra desse campo lexical foi identificada nesse corpus. 


Ao avaliar qualitativamente os dados presentes nos contextos, por meio da ferramenta 
Concord do WST, que gera linhas de concordâncias, listamos o modo como vida e morte 
aparecem e são conceituadas em ambos os corpora. Também identificamos por meio das 
linhas de concordância tanto contextos definitórios quanto explicativos em que há a presença 
de algumas metáforas. 


Foram identificados 95 contextos definitórios para vida (vida é) no Corpus Hay e 1.449 
contextos explicativos. Devido à extensão das ocorrências, optamos em analisar somente 
os contextos definitórios. Neles, a vida aparece na concepção de Hay como eterna e cheia 


H mM 


de alegria, mudança, muito simples”, solitária”, fácil e alegre”, "uma droga"” “um processo, 


mm H M H mM H mM 


“minha aliada”, dirigida pela atenção emocional”, boa, segura e alegre, uma fraude”, doce”, 


H mM H mM mm mM 


‘favorável a mim”, eterna e plena de alegria, feita de relacionamentos, um fluxo, movimento, 


H mM mm H M H M 


“cheia de perigos, sua inimiga”, experiências, para ser vivida plenamente", profundamente 


mm mm mm mM nH 


afirmativa, divinamente guiada, repleta, sempre nova, guiada tanto pela graça divina quanto 


pela escolha, uma alegria, pura alegria, perfeita, excitante, espelho dos pensamentos, 
"uma conselheira. 


No Corpus Cioran, foram encontrados 43 contextos definitórios e 952 explicativos para vida. 
Nos detivemos então a observar esses contextos, e neles, a vida aparece como: “ocupação de 


10 O autor Cioran não faz alusão à reencarnação por meio do termo vidas. Louise Hay sim. 


11 Para a autora, as definições de vida, em negrito no parágrafo, representam as crenças limitantes do ser humano. Ou seja, para ela, a vida 
é algo sempre bom, e o que está marcado como ruim seria o tipo de pensamento que devemos evitar e combater. 
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mm em mM mm 


um inseto, milagre que a amargura destrói, lugar de minhas paixões, ponto de interrogação, 


nm mM mM nm hM mM H mM 


romance da matéria, a piedade da duração, um élan (ímpeto), frágil", problemática, bem 


H mM H mM H M H M H M 


perdido, doença crônica, lembrança suprema, realidade suprema, remoida, cativa da 


H M 


morte , 


mm mm mm 


medíocre, fragmentária, falta de gosto que nem a morte”, batismos de sombras, 


rm Mo 


limitada, pretexto, in-eternidade”, passo na morte”, originária, eterna para o espírito e 


M mM H M 


efêmera diante da morte”, medo atravessado de lampejos, não ter talento para a poesia, 


nm mM M Ao 7 H M 


‘uma evidência, torpor no claro-escuro”, inércia entre luzes e sombras, o que se decompõe 


H Mr H M H M 


a todo momento” é ilusória”, um estrondo”, o cume mais alto”. 


Já o termo morte alcançou 21 contextos definitórios (morte é) no Corpus Cioran onde ela 


nd M Mo H mM 7 


aparece como única surpresa da solidão, igual ao mendigo", a única obsessão que não pode 


H mM 


se tornar voluptuosa, motivo de vergonha e condição de sobrevivência e 484 explicativos 


ma 


nos quais a morte aparece como algo que chega a seu tempo; limite da vida, um apagar- 


se, algo que não merecemos, assim como a vida, não absoluta, subjetiva, repugnante, 
“dissolução imaterial no infinito. 


Para morte, não encontramos nenhum contexto definitório no Corpus Hay, apenas 19 
contextos explicativos, neles, a morte aparece como a saída do filme da vida ou abandonar o 
filme da vida”, e ainda a morte de alguém (o cônjuge) como possibilidade de mudança da própria 
vida. Pelo fato de morte não ser palavra-chave no Corpus Hay e não ter muita frequência na 
lista de palavras, geramos uma linha de concordância para cada uma das ocorrências hápax 
legomenon" para morre, morrendo, morrera, morreram, morrerem, morreríamos, morri, mortais, 
mortalidade, mortes e morto. Nelas não há contextos definitórios nem explicativos, exceto por 
um contexto explicativo onde morrer aparece como algo de que se tem medo. 


Há sim algumas posturas duais no ideário dos autores Hay e Cioran, pois enquanto para 
Hay a vida é simples, eterna e perfeita, para Cioran ela é problemática, efêmera/in-eternidade 
e medíocre. Enquanto para Hay a morte é colocada de forma negativa quando o morrer é algo 
a se temer, porém é metaforizada como saída ou abandono do filme da vida, já para Cioran 


LÁ 


a morte é condição de sobrevivência e algo que chega a seu tempo. 


A vida também aparece como milagre, romance, lugar de paixões, lembrança suprema 
em Cioran, o que contraria a visão totalmente pessimista e leva suas noções para a zona 
da ambivalência, inclusive quando o autor define a morte como algo que não merecemos, 
assim como a vida e define a vida como eterna para o espírito e efêmera diante da morte”. 
Há também noções do campo semântico negativo em Hay quando ela coloca a vida como 
uma droga, cheia de perigos, inimiga e solitária, porém, se referindo às crenças limitantes que 
existem, de modo geral, em suas obras. 


12 Termo que vem do grego e designa palavras que são usadas (ou no contexto da LC, que ocorrem) uma única vez. 
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Percebemos em Hay a metáfora conceitual a VIDA É UMA VIAGEM quando ela a coloca 
como fluxo, movimento, guiada, dirigida, já em Cioran quando ele cita que a vida é efêmera e 
um passo; identificamos em Cioran a metáfora conceitual a VIDA É UMA DOENÇA quando 
ele se refere a ela como uma doença crônica e a VIDA É UMA ESCALADA, quando o autor a 
define como o cume mais alto”. 


5 Considerações finais 


A partir dos resultados apresentados neste capítulo, considera-se que o olhar para as obras 
de ambos os autores, Cioran e Hay, por meio das ferramentas de LC, nos permitiu perceber 
fatos surpreendentes, tendo em vista que Cioran é considerado um autor pessimista e ateu e, 
no entanto, Deus e amor são duas das palavras mais frequentes no corpus de suas principais 
obras. Além disso, inferíamos de antemão que morte fosse mais frequente, porém, vida possui 
mais ocorrências no corpus do reconhecido autor cético. Em contrapartida, o corpus de Hay, 
composto pelas principais obras da autora, que vem originalmente de um círculo religioso, 
não possui o item Deus dentre os mais frequentes e nem mesmo tantas palavras do campo 
semântico ou lexical da espiritualidade, conforme esperávamos. 


Esses fatos reforçam, a nosso ver, o quanto que o olhar para os dados por meio da LC 
é diferenciado, o quanto a percepção sobre os fatos de linguagem, quando estudados por 
meio dessa abordagem e postos à prova por meio dessa perspectiva, pode contrariar nossas 
expectativas prévias, derrubar preconceitos, refutar hipóteses antes concebidas ou rearranjá- 
las, além de trazer à tona novas hipóteses e redirecionar nossas análises. 


Reconhecemos que, nesse curto espaço, não foi possível aprofundar o estudo qualitativo 
dos resultados alcançados e nem mesmo aprofundar a análise sobre a questão das metáforas, 
que definem conceitualmente algumas ideias e noções altamente frequentes nos corpora 
como vida e morte, o que se revelou um campo rico, que merece estudos posteriores, inclusive 
para a análise das palavras Deus e amor. 


Em suma, a dualidade está presente nas obras dos autores em comparação entre si, porém, 
percebemos que há também ambivalências entre as noções de morte e vida dentro das mesmas 
obras, quando enfocamos a abordagem de cada autor de forma isolada. Por fim, consideramos 
que a LC permitiu aplicar com eficácia seus métodos, a fim de testarmos o breve estudo desse 
tema aqui proposto à luz de seus recursos e princípios. 
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1 Introdução 


A Linguística de Corpus, segundo Berber Sardinha e Almeida (2008, p. 18), é uma área 
interdisciplinar que vem tendo um grande desenvolvimento desde a década de oitenta na 
Europa e, mais tarde, em outras partes do mundo, incluindo o Brasil”. Segundo Gonçalves (2008, 
p. 389), vem sendo cada vez mais utilizada como um poderoso instrumento de pesquisa e 
observação do texto e possibilita um estudo mais completo do fenômeno literário. A partir 
de e de acordo com essas considerações, faremos uma breve análise do romance Rayuela de 
Cortázar (1973 [1963]), em sua versão original em espanhol, partindo de uma lista de palavras 
(WordList) e, posteriormente, da análise de palavras-chave (KeyWords) a fim de encontrar 
resultados que possam caracterizar essa obra em comparação com outras obras de Cortázar 
por meio de um estudo do léxico. 


A comparação quantitativa do léxico, que nos trouxe informações sobre a linguagem do 
autor e sobre as temáticas principais presentes em Rayuela, somente foi possível por meio das 
ferramentas que nos oferecem a Linguística de Corpus e, em especial, o programa WordSmith 
Tools 4.0 (SCOTT, 2004), doravante WST, uma vez que se trata de muitos textos extensos em 
número de palavras, o que inviabilizaria uma análise manual. A análise de cada palavra com 
significativa frequência foi feita levando em conta seus contextos linguísticos, apresentados 
pelo concordanciador (Concord). 


Para a realização deste estudo, empregamos o arcabouço teórico-metodológico da 
Linguística de Corpus (BERBER SARDINHA, 2004, 2009), da Metáfora Conceptual (LAKOFF; 
JOHNSON, 2002 [1980]), à obra Rayuela de Cortázar (1973 [1963]) e alguns artigos, capítulos e 
livros relacionados à Linguística de Corpus e à análise da obra de Julio Cortázar. Para apresentar 
a tradução dos trechos extraídos para análise, utilizamos Cortázar (2019), edição traduzida 
para o português por Eric Nepomuceno. 


2 Sobre o autor e a obra 


Julio Cortázar foi um escritor, tradutor e professor argentino, um dos grandes percursores 
do Realismo Fantástico na América Latina. Nascido em Bruxelas, na Bélgica, em 1914, viveu 
grande parte de sua vida entre a Argentina e a França. Podemos afirmar que, com grandes 
obras como Rayuela, Cortázar é um dos escritores argentinos mais reconhecidos no Brasil e 
no mundo. 


Segundo Fioruci (2007, p. 2), o autor unia o atrevimento literário e a aventura estética com 
o compromisso político em favor dos povos do terceiro mundo, num desejo de subverter não 
só a linguagem, mas sim de nos fazer descobrir universos que o homem é incapaz de ver. Para 
Dill (2013, p. 4-5), 
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[...] a linguagem de Cortázar é encantatória e lúdica, feita de improvisos e imprevistos, usando 
construções linguísticas absolutamente inventivas. Mas, em nenhum momento, Cortázar quer 
mostrar-se inatingível. Pelo contrário, ele vai ao encontro do leitor e revela a sua humanidade. [...] 


O léxico esbarra ora para um modo coloquial, ora culto, por vezes conotativo, por vezes denotativo. 


Essa linguagem de Cortázar, tão bem descrita por Dill (2013), está presente em todas as 
suas criações literárias, inclusive em Rayuela, nosso objeto de estudo. Obra consagrada do 
autor, Rayuela, romance traduzido ao português como O jogo da amarelinha”, foi um marco 
da literatura do século XX pela ousadia na forma e na linguagem e por considerar o leitor um 
participante ativo na construção de sua leitura e interpretação. Segundo o próprio Cortázar, 
‘Rayuela é um livro cuja feitura não correspondeu a nenhum plano (PREGO, 1991, p. 99). Segundo 
o autor, somente quando teve “todas as páginas de Rayuela em cima de uma mesa, ou seja, 
aquela enorme quantidade de capítulos e fragmentos é que ele sentiu a necessidade de pôr 
um pouco de ordem naquilo tudo (PREGO, 1991, p. 99). Ou seja, Rayuela é a união de pequenas 
narrativas que não foram escritas como uma unidade e, devido a essa particularidade, são 
possíveis as diversas leituras com diferentes desfechos, o que muitas vezes desperta no leitor 
um interesse especial. 


Nosso propósito, neste trabalho, diferentemente de outros que buscam analisar aspectos 
da narrativa, é desvendar a linguagem do autor, deixando-nos guiar pelo corpus, utilizando a 
Linguística de Corpus e as ferramentas que ela nos oferece. 


3 Metodologia 


Tomamos como corpus de estudo a edição de 19/3 de Rayuela, em sua versão completa e 
no idioma original (espanhol). Esta escolha deve-se ao fato de tratar-se de um texto longo, de 
um enredo complexo e representativo da obra cortazariana. Nosso corpus de estudo totaliza 
172.581 tokens e 20.622 types. 


Após obter os textos em formato .pdf, utilizamos o conversor de arquivos on-line Convertio* 
(gratuito para conversão de um número limitado de arquivos por dia) para converter os arquivos 
em .pdf para .txt, formato de texto plano que possibilita a leitura das obras pelo WST. Salvamos 
os arquivos com a codificação ANSI. Realizamos, em seguida, a limpeza dos arquivos em txt 
eliminando a parte inicial de cada texto nas quais apareciam os índices (subtítulos com as 
respectivas páginas), os grandes espaçamentos em branco entre os parágrafos, o início de 
cada capítulo onde se repetia o título da obra e, no final de cada página correspondente ao 
arquivo original, apagamos os numeros das páginas que se colocavam entre as linhas de texto. 


2 Programa disponível em: https://convertio.co/pt/. Acesso em: 20 nov. 2020. 
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Utilizamos o recurso de edição Localizar/Substituir” do Bloco de notas (editor de texto simples 
do Microsoft Windows) para eliminar alguns dados que se repetiam e que não nos interessavam 
para nossa pesquisa, como nome do autor, títulos e algumas referências que se repetiam a 
cada página em alguns dos textos. Após esses procedimentos, o corpus estava pronto para o 
processamento. 


Ao abrir o programa WST, configuramos a língua para Spanish em Settings > Languages, 
tendo em vista proceder ao processamento do arquivo. Ao ler o texto da narrativa em .txt, salvo 
com codificação ANSI, utilizando a ferramenta WordList, desconsideramos a grande repetição 
de palavras de uso muito frequente como preposições, conjunções, pronomes, artigos e nomes 
próprios (dos personagens). Então, destacou-se, entre outras classes de palavras que não 
selecionamos para este estudo, a grande quantidade de substantivos que nomeiam partes do 
corpo (doravante, somatismos). 


Após a observação do campo lexical 'somatismos, recorrente na obra, e a análise de 
algumas unidades fraseológicas (UFs) formadas a partir da palavra mano” e seus derivados, 
buscamos responder a um questionamento que surgiu neste momento de desenvolvimento 
da pesquisa: ao comparar Rayuela a um corpus de referência que compilamos, composto por 
obras do mesmo autor, os somatismos se destacarão como característicos desta obra em 
particular? 


Para iniciar nossa análise lexical, criamos uma primeira lista de palavras que denominamos 
Rayuela — WordList 1. Eliminamos da lista as preposições, as conjunções, os pronomes e os 
artigos que apareciam em grande número e não nos interessavam para esta pesquisa, também 
a cerquilha (%) que, segundo Berber Sardinha (2009, p. 82), é empregada pelo WordSmith Tools 
para substituir algarismos”. Criamos assim a “Rayuela — WordList 2º com 20.622 types (palavras 
distintas). 


Em uma primeira leitura do corpus de estudo pela WordList, nos chamou a atenção, 
especialmente, a grande recorrência de palavras de uso tipicamente argentino. É o caso do 
pronome pessoal de segunda pessoa do singular, vos (freq. 3/2), dos verbos conjugados 
concordando com esse pronome, do pronome pessoal de uso formal usted (freq. 115) e da 
interjeição che” (freq. 117). Embora relevantes, já esperávamos esses resultados devido à 
nacionalidade de Cortázar, escritor argentino. Então, decidimos observar atentamente os 
substantivos para encontrar novos achados, que poderiam resultar em uma análise mais 
direcionada e menos abrangente da obra. 


Observando os substantivos, identificamos a frequente repetição de palavras que denominam 
partes do corpo humano, como exemplificado na Tabela 1. 
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Tabela 1: Somatismos e suas ocorrências no corpus de estudo. 


E O 


Fonte: Elaborada pela autora. 


Especialmente, notamos o uso recorrente da palavra mano e seus derivados em toda a 
narrativa que compõe nosso corpus de estudo. 


Após definirmos como objeto de nossa análise lexical a palavra mano, fizemos a junção das 
palavras pertencentes à mesma família lexical por meio do recurso de lematização que, segundo 
Berber Sardinha (2009, p. 144), é a redução das diversas formas derivadas de uma palavra à 
sua forma canônica ou dicionarizada, chamada de lema. A lematização em nossa WordList foi 
feita manualmente, arrastando cada uma das palavras relacionadas semanticamente à palavra 
“mano, unindo-as em uma mesma linha, como mostra a Figura 1. 


Figura 1: Lematização da palavra mano. 


[W] Rayuela MANO lematizada.Ist o o 
File Edit View Compute Settings Windows Help 


YA 404 0,23 1 100,00 
SIN 402 0,23 1 100,00 
VOS 372 0,22 1 100,00 
TALITA 371 0,21 1 100,00 
VEZ 348 0,20 1 100,00 
ESTABA 337 0,19 1 100,00 
CUANDO 331 0,19 1 100,00 
ESTÁ 323 0,19 1 100,00 
MASC] 321012 1 100,00 [1] manotazo[1] manotazos[2] manoteabaf1] manoteando(5] manoteg[1] manotón[2] manotonesiZ] 
TAN 318 0,18 1 100,00 
DOS 317 0,18 1 100,00 
PORQUE 315 0,18 1 100,00 
POCO 311 0,18 1 100,00 
HAY 308 0,18 1 100,00 
BIEN 306 0,18 1 100,00 
ESA 296 0,17 1 100,00 
NADA 295 0,17 1 100,00 
SUS 292 0,17 1 100,00 
HASTA 291 0,17 1 100,00 
SER 285 0,16 1 100,00 
ENTRE 284 0,16 1 100,00 
ALGO 281 0,16 1 100,00 
ASÍ 280 0,16 1 100,00 


20.629  Typein MANO 


(e>) [67 (S A P 
N N N N N 


Fonte: WordList. 


Após juntarmos as palavras mano, manos, manotazo, manotazos, manotón, manotones, 
manualmente e as formas do verbo manotear, obtivemos um total de 321 ocorrências (Figura 
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1). O passo seguinte foi utilizar a ferramenta Concord para analisar os diversos contextos em 
que esses vocábulos se inserem. 


A ferramenta Concord realiza concordâncias, ou listagens de uma palavra específica (o 
nódulo, node word ou search word) juntamente com parte do texto onde ocorreu” (BERBER 
SARDINHA, 2009, p. 8). O uso dessa ferramenta foi fundamental para localizarmos de uma 
maneira prática e rápida em que contexto(s) Cortázar utilizou cada uma dessas palavras. 


Como não conseguimos gerar as linhas de concordância diretamente a partir da palavra 
“mano” lematizada na WordList, abrimos a ferramenta Concord e buscamos por man””. Esse 
procedimento nos possibilitou, sem muita dificuldade, com um resultado de 763 ocorrências, 
fazer uma leitura atenta e eliminar todas as palavras que não fazem parte do campo lexical de 
“mano”, como “mancha”, manera” ou flexões do verbo mandar”, chegando a um resultado 
de 326 linhas de concordância relacionadas ao lema “mano” e que, portanto, nos interessam 
nesta pesquisa. 


4 Análise e resultados 


Observamos que a palavra mano(s), em grande parte dos contextos analisados por meio 
das linhas de concordância, foi utilizada pelo autor em seu sentido literal, como parte do corpo 
humano, como exemplificamos nos trechos apresentados abaixo: 


[...] una mujer que me pasaba su mano fina y transparente por los muslos...º (linha de concord. 
nº 57) 
La Maga se quedaba triste, juntaba una hojita al borde de la vereda y hablaba con ella un rato, se 


la paseaba por la palma de la mano, la acostaba de espaldas o boca abayjo...º (linha de concord. 
nº 253) 


En el quinto piso los esperaban Ronald y Babs, cada uno con una vela en la mano y oliendo a 


vodka barato” (linha de concord. nº 275) 


Ronald había cerrado los ojos, las manos apoyadas en las rodillas marcaban apenas el ritmo* 


(linha de concord. nº 147). 


As linhas de concordância nos mostram partes do texto em que ocorreu determinada 
palavra e, observando cada uma delas, decidimos, para esse breve trabalho de análise das 


3 “[...] uma mulher que passava a mão fina e transparente pelas minhas coxas..." (CORTÁZAR, 2019, p. 22). 


4 "A Maga ficava triste, apanhava uma folhinha na beira da calçada e falava com ela um pouco, passeava a folhinha pela palma da mão, a 
deitava de costas ou de bruços..." (CORTÁZAR, 2019, p. 34). 


5 “No quinto andar, Ronald e Babs esperavam por eles, cada um com uma vela na mão e cheirando a vodca barata” (CORTÁZAR, 2019, p. 45) 


6 “Ronald havia fechado os olhos, as mãos apoiadas nos joelhos marcavam levemente o ritmo” (CORTÁZAR, 2019, p. 55). 
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UFs somáticas na obra de Cortázar, iniciar uma busca por ocorrências que indicassem usos 
metafóricos do somatismo mano ou de seus derivados. 


Segundo Berber Sardinha (2009, p. 40), metáfora não mais significa apenas um recurso 
linguístico para ornamentar o discurso literário, mas fundamentalmente um tipo de 
processamento mental. Esse processamento é o que nos permite entender conceitos abstratos, 
como amor, tempo e vida, entre outros. A Teoria da Metáfora Conceptual, que usamos como 
base para a análise de algumas UFs metafóricas, foi proposta por George Lakoff e Mark Johnson 
no livro Metaphors We Live By (Metáforas da Vida Cotidiana), publicado em 1980. Segundo os 
autores, nossa linguagem do dia a dia está repleta de metáforas, das quais nem sempre nos 
damos conta e a essência das metáforas é compreender e experienciar uma coisa em termos 
de outra (LAKOFF; JOHNSON, 2002, p. 4/-48). 


A metáfora, segundo Lakoff e Johnson (2002, p. 45), diferentemente do que pensa a maioria 
das pessoas, não é exclusivamente um recurso da imaginação poética e um ornamento retórico, 
uma questão de linguagem extraordinária e não de linguagem ordinária. Segundo os autores, 
“a metáfora está infiltrada na vida cotidiana, não somente na linguagem, mas também no 
pensamento e na ação. 


Na expressão en la mano del recuerdo, percebemos o uso da palavra mano atribuída a 
recuerdo com um sentido metafórico. 


Con ese par de zapatos en la mano del recuerdo, el resto venía solo: la cara de doña Manuela, 
por ejemplo, o el poeta Ernesto Morroni. Pero los rechazaba porque el juego consistía en recobrar 


tan sólo lo insignificante, lo inostentoso, lo perecido.” 


Neste trecho em que Oliveira se lembra da Maga com saudades (trata-se do casal protagonista 
do romance Rayuela), na expressão en la mano del recuerdo, percebemos o uso da palavra 
mano atribuída al recuerdo com um sentido metafórico. É como se a “lembrança” fosse um ser 
que possui uma mão (humana) para sustentar um par de sapatos. Claramente se entende 
o par de zapatos como um objeto que traz à mente do personagem as outras recordações 
mencionadas. Podemos comparar a mão da lembrança ou, como Nepomuceno preferiu 
traduzir (CORTÁZAR, 2019), as “mãos da memória” a um "registro de memória”, que também é 
um conceito abstrato. Outra possível interpretação é que ese par de zapatos vem pela mano del 
recuerdo, como se se tratasse de um caminho de mão dupla por onde se transita. Essa última 
interpretação nos leva à metáfora conceptual RECUERDO ES UNA PISTA DE UNA AVENIDA. 


7 “Com esse par de sapatos nas mãos da memória, o resto vinha sozinho: o rosto de dona Manuela, por exemplo, ou o poeta Ernesto Morroni. 
Mas eu rejeitava isso, porque a brincadeira consistia em recuperar apenas o que fosse insignicante, o inostentoso, o perecido (CORTAZAR, 
2019, p. 16). 
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A ação de manotear, nos trechos a seguir, também identificados pelas linhas de concordância 
geradas para man”, assim como o substantivo concreto mano no exemplo anterior, se torna 
metafórica nas expressões criadas por Cortázar. Vejamos alguns exemplos: 


[...] dijo Oliveira manoteando mentalmente algo que decir... 


Que a cada sucesiva derrota hay un acercamiento a la mutación final, y que el hombre no es 
sino que busca ser, proyecta ser, manoteando entre palabras y conducta y alegría salpicada de 


sangre y otras retóricas como esta.” 


Nestes dois exemplos, o verbo 'manotear” está relacionado com a procura por uma 
linguagem propícia à organização do pensamento para dizer alguma coisa. Manotear, que 
pode ser traduzido como fazer movimentos bruscos com as mãos ou gesticular, está associado, 
neste contexto, à ideia do abstrato, invisível, como pensar, refletir etc. Ou seja, a mente é 
considerada uma entidade viva que possui mãos, capaz de tocar e selecionar palavras que, por 
sua vez, também se tornam concretas e palpáveis. Portanto, 'manoteando”, que aparece no 
gerúndio nos dois exemplos, pode ser interpretado como uma ação feita de um determinado 
modo, mentalmente: MENTE ES UN SER CON MANOS. 


Para exemplificar o uso literal do verbo manotear por Cortázar, observemos a seguinte 
passagem em que uma das personagens está literalmente tocando suas saias com as mãos. 
para procurar uma garrafa: [...] dijo Emmanuele manoteando entre sus innúmeras faldas para 
encontrar la otra botella". No entanto, a análise das linhas de concordância anteriores nos 
sugere que Julio Cortázar metaforizou as palavras mano e manoteando, em muitos casos, ao 
relacioná-las com atividades mentais e conceitos abstratos. 


Para concluir e complementar este breve estudo, trazemos um novo exemplo: 


Una mano de humo lo llevaba de la mano, lo iniciaba en un descenso, si era un descenso... 


A pequena oração que inicia o trecho veiculado se constitui numa metáfora, na qual a 
palavra mano aparece duas vezes. Segundo López e Jorgensen (2009), Ilevar (alguien) de la 
mano significa guiar, orientar alguém. Ou seja, Oliveira, personagem principal do romance de 
Cortázar, era guiado em suas ações pela mão de fumaça, pela sua ação de fumar, que sugere 
uma personificação da expressão que é capaz de segurar a mão de uma pessoa e guiá-la em 
um caminho: LA MANO DE HUMO ES UN GUÍA. 


8 “[...] disse Oliveira, tateando mentalmente o que dizer...” (CORTÁZAR, 2019, p. 116). 


9 “De que a cada derrota sucessiva há uma aproximação à mutação final, e de que o homem não é senão o que procura ser, planeja ser, 
agitando as mãos entre palavras e comportamento e alegria salpicada de sangue e outras retóricas do tipo” (CORTAZAR, 2019, p. 337). 


10 T...] disse Emmanuéle manobrando entre suas inúmeras saias até encontrar a outra garrafa” (CORTÁZAR, 2019, p. 201). 


11"Uma mão de fumaça o levava pela mão, o iniciava numa descida, se é que era uma descida...” (CORTÁZAR, 2019, p. 56). 
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4.1 As palavras-chave em Rayuela: 
criando um corpus de referência 


Para comprovar a importância do léxico encontrado nas primeiras linhas da lista de palavras 
e perceber o que há de especial na composição lexical de Rayuela, usamos um corpus de 
referência composto por obras do mesmo autor. Como nos interessa analisar e perceber o 
que nos oferece Rayuela de diferencial em termos de léxico com relação a outras narrativas, 
para compor nosso corpus de referência, optamos pelos romances e contos de Cortázar. 


Portanto, selecionamos 1/7 obras do mesmo autor. Dentre as obras compiladas para o corpus 
de referência, se encontram cinco obras anteriores a Rayuela, nove posteriores à sua edição de 
1963 e três obras póstumas que foram publicadas a partir de anotações que Cortázar deixou, 
que foram editadas e publicadas por Carles Garriga e Aurora Bernárdez, sua ex-mulher. 


A Tabela 2, a seguir, apresenta as obras que compõem nosso corpus de referência, juntamente 
com seus anos de publicação e número de tokens e types. 


Tabela 2: Obras de Cortázar: corpus de referência. 


08 | Prosadelobsenmtoro | 1872 | 6433 | 205 
COR DR 
E 
E 


Fonte: Elaborada pela autora. 
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Como afirma Berber Sardinha (2009, p. 225), os corpora de referência devem ser maiores 
do que o corpus de estudo. Neste caso, temos um corpus de referência aproximadamente 
cinco vezes maior do que o corpus de estudo se considerarmos o número total de tokens. No 
corpus de referência, que denominamos Cortázar”, na tela Statistics, após criar as listas de 
palavras, constatamos a presença de 925.349 tokens e 50.473 types. Já no corpus de estudo, 
como mencionado anteriormente, temos um total de 1/2.581 tokens e 20.622 types. 


Nesta etapa, os mesmos procedimentos de limpeza e conversão de formato e de extensão 
realizados com o corpus de estudo foram empreendidos na preparação do corpus de referência 
para processamento. 


Para gerar a lista de palavras-chave na ferramenta KeyWords, optamos por restringir 
a frequência mínima de palavras para 5, desconsiderando as que se repetem menos de 5 
vezes, e definimos o valor de p (poder de significância estatística) como 0,000001, que reduz 
a possibilidade de os resultados serem fruto do acaso. Essas configurações estão disponíveis 
na ferramenta KeyWords na aba Settings em Specific to KeyWords. 


Segundo Berber Sardinha (2009, p. 8), a ferramenta KeyWords '[...] extrai palavras de uma lista 
cujas frequências são estatisticamente diferentes (maiores ou menores) do que as frequências 
das mesmas palavras num outro corpus (de referência). Calcula também palavras-chave chave, 
que são chave em vários textos. 


Os procedimentos descritos resultaram em uma lista de palavras-chave composta por 139 
itens. Como é possível perceber na Figura 2, que apresenta um recorte da lista de palavras-chave, 
as palavras que haviam se destacado pela frequência na lista de palavras do corpus de estudo 
não constam na lista de palavras-chave, nem positivas e nem negativas. As palavras-chave 
negativas, destacadas em vermelho na Figura 2, são aquelas cuja frequência é significativamente 
mais alta no corpus de referência do que no de estudo (BERBER SARDINHA, 2009, p. 210). 
Como podemos notar na figura em questão, a lista de palavras-chave foi ordenada em ordem 
alfabética para confirmar a ausência da palavra mano. Em uma análise mais minuciosa, notamos 
a ausência de todo o campo lexical “partes do corpo humano. 
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Figura 2: Recorte da lista de palavras-chave em ordem alfabética. 


FE) KeyWords 

File Edit View Compute Settings Windows Help 

? D [3 = [mano | X 

NI Key word EE E ET 
| 64 KLEE 12 33,61 0,0000000038 
65 LENGUAJE 41 0,02 is 25,64 0,0000004080 
| 66| LÉONIE 10 0 37,01 0,0000000000 
LLUVIA 36 0,02 50 33,40 0,0000000046 
| 68 LUEGO 12 276 0,03 -39,05 0,0000000000 
| 69 MADRID 9 1 27,15 0,0000001857 
MAMÁ 10 459 0,05 -97,28 0,0000000000 
MANDADOS 12 2 33,61 0,0000000038 
MATE 69 0,04 91 67,71 0,0000000000 
MON 26 0,02 16 45,87 0,0000000000 
MONDRIAN 20 0,01 1 66,32 0,0000000000 
MONJES 8 0 29,61 0,0000000500 
MONOD 7 0 25,90 0,0000003558 
MONSIEUR 6 191 0,02 -33,82 0,0000000031 
MONTACARGAS 16 0 59,21 0,0000000000 
MONTEVIDEO 34 0,02 12 77,13 0,0000000000 
80 MORELLIANA 9 0 33,31 0,0000000049 
MUNDO 150 0,09 456 0,05 32,84 0,0000000071 
NACIDOS 11 2 30,23 0,0000000355 
| 83| PALANGANAS 16 3 43,66 0,0000000000 
| 84 PALOMA 20 0,01 12 35,78 0,0000000001 
— 88 PARÍS 90 0,05 236 0,03 29,62 0,0000000496 


ns [plot | links | clusters | fienames | notes | source text | 


139 Typein GESTO 


Fonte: KeyWords. 


Como afirma Berber Sardinha (2009, p. 8) a ferramenta KeyWords “calcula também palavras- 
chave chave, que são chave em vários textos e essa foi nossa conclusão nesta análise: a palavra 
mano, assim como todas as outras que denominam partes do corpo, são palavras-chave 
chave em Cortázar, por estarem presentes também nas 17 obras do corpus de referência, sem 
exceção, como comprovamos na Figura 3: 


Figura 3: Recorte da lista de palavras do corpus de referência, evidenciando a frequência de mano e o número 
de arquivos em que ocorreu. 


[M] WordList 
File Edit View Compute Settings Windows Help 


ENO Aoeil Frog] a Torto) SO Set 


NOCHE 1.160 0,13 100,00 
MUY 1.129 0,12 E 94,12 
COSA 1.129 0,12 17 100,00 
ELLA 1.119 0,12 17 100,00 
MISMO 1.118 0,12 17 100,00 
COSAS 1.087 0,12 17 100,00 
SER 1.082 0,12 17 100,00 
TAMBIÉN 1.076 0,12 17 100,00 
ENTONCES 1.045 0,11 17 100,00 
1.042 0,14 147 100,00 
0,11 17) 100,00 
1.030 0,11 17 100,00 
980 0,11 17 100,00 
978 0,11 15 88,24 
978 0,11 17 100,00 
965 0,10 17 100,00 
965 0,10 417 100,00 
957 0,10 16 94,12 
953 0,10 17 100,00 
946 0,10 17 100,00 
MOMENTO 915 0,10 17 100,00 
CARA 903 0,10 17 100,00 
HUBIERA 872 0,09 17 100,00 


frequency [alphabetical] statistics | filenames | notes 


50.473  Typein MANO 


Fonte: WordList. 
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Esta breve análise que apresentamos em torno do somatismo mano foi realizada 
principalmente no intuito de explorar os corpora de estudo e de referência de Cortázar com as 
ferramentas do WST. O uso dessas ferramentas nos possibilitou testar as hipóteses formuladas 
durante nossa análise qualitativa dos contextos apresentados. A chavicidade nos indicou 
uma proporção de ocorrência maior do que a frequência simples, ou seja, esse critério nos 
possibilitou constatar que o somatismo mano não é só frequente na obra analisada, Rayuela, 
mas se destaca em todo o conjunto de obras selecionadas do mesmo autor. 


5 Considerações finais 


Neste capítulo, apresentamos uma breve análise da obra Rayuela de Julio Cortázar viabilizada 
pelas ferramentas da Linguística de Corpus. Nossa análise foi guiada pelos resultados obtidos 
através do uso das ferramentas WordList, Concord e KeyWords do WST. 


Apesar de já haver lido o romance de maneira convencional há algum tempo e saber que 
a linguagem de Cortázar não é de fácil interpretação por fazer uso, muitas vezes, de recursos 
poéticos e linguagem metafórica, sem a Linguística de Corpus como aliada para a análise do texto, 
seria altamente laborioso e demorado chegar aos resultados que obtivemos. Especialmente, as 
listas de palavras e de palavras-chave tornaram possível evidenciar um campo lexical recorrente 
não só em Rayuela, mas em todas as 18 obras de Cortázar que compuseram nossos corpora: 
somatismos. Essa interessante recorrência passaria despercebida em outros tipos de leitura, 
pois a obra Rayuela é extensa e, como já mencionado, apresenta um vocabulário e enredo 
complexos que prendem a atenção do leitor em outros aspectos da obra, como na trama 
narrativa. 


Como era nosso objetivo inicial perceber o que o nosso corpus de estudo nos mostraria 
nesta primeira análise com as ferramentas da Linguística de Corpus sem nos estendermos muito, 
fizemos um pequeno recorte dentre as diversas possibilidades de análise lexical. Deixamos 
abertas, portanto, com este trabalho, algumas possibilidades de novas descobertas e novos 
caminhos que poderão desvendar outros segredos guardados no jogo da amarelinha de 
Cortázar. 


| Referências 
BERBER SARDINHA, T. Linguística de Corpus. São Paulo: Manole, 2004. 


BERBER SARDINHA, T. Pesquisa em Linguística de Corpus com WordSmith Tools. 
Campinas: Mercado de Letras, 2009. 


38 | 


BERBER SARDINHA, T.; ALMEIDA, G. M. B. A Linguística de Corpus no Brasil. In: TAGNIN, S. 
E. O.; VALE, O. A. (org.). Avanços da Linguística de Corpus no Brasil. São Paulo: Humanitas, 
2008. p. 17-40. 


CORTÁZAR, J. O jogo da amarelinha. Tradução Eric Nepomuceno. São Paulo: Companhia 
das Letras, 2019. 


CORTÁZAR, J. Rayuela. 15. ed. Buenos Aires: Editorial Sudamericana, 1973 [1963]. 


DILL, D. E. O hábito e o estranhamento na obra de Julio Cortázar. 2013. Disponível 
em: https://home.unicruz.edu.br/mercosul/pagina/anais/2013/LINGUAGEM%20E%20 
DESENVOLVIMENTO %20SOCIOCULTURAL/ARTIGOS/. Acesso em: 23 nov. 2020. 


FIORUCI, W. R. Aproximações a Julio Cortazar. Urutágua, Maringá, n. 11, p. 1-6, 2007. 
Disponível em: ntto://www.urutagua.uem.br/011/11fioruci.odt. Acesso em: 23 nov. 2020. 


GONÇALVES, L. B. Linguística de corpus e análise literária: o que revelam as palavras-chave. 
In: TAGNIN, S. E. O.; VALE, O. A. (org.). Avanços da Linguística de Corpus no Brasil. São 
Paulo: Humanitas, 2008. p. 387-405. 


LAKOFF, G.; JOHNSON, M. Metáforas da vida cotidiana. Campinas: EDUC/Mercado de 
Letras, 2002 [1980]. 


LÓPEZ, J. A. M.; JORGENSEN, A. M. Diccionario de expresiones y locuciones del español. 
Madrid: Ediciones de la Torre, 2009. 


PREGO, O. O fascínio das palavras: entrevistas com Julio Cortázar. Tradução Eric 
Nepomuceno. Rio de Janeiro: José Olympio, 1991. 


SCOTT, M. WordSmith Tools version 4. Liverpool: Lexical Analysis Software, 2004. Disponível 
em: https://lexically.net/wordsmith/version4/index.htm. Acesso em: 05 jan. 2021. 


39 | 


O vocabulário distópico 
em Fahrenheit 451: 
uma analise pautada na 
Linguistica de Corpus 
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1 Doutoranda em Estudos Linguísticos pela Universidade Federal de Uberlândia. Lattes: http://lattes.cnpa. 
Dr/3140346526525800. E-mail: terezinha63@ufcat.edu.br 


1 Introdução 


As inovações tecnológicas e os avanços científicos que aconteceram desde o fim do 
século XIX trouxeram entusiasmo e esperança para a humanidade. Com base nas concepções 
de Silva (2006), podemos afirmar que, como aplicação prática dos conhecimentos, as novas 
descobertas e técnicas traziam a possibilidade de um mundo melhor, mais correto, humano e 
com muita confiança no advento do novo milênio. Nesse contexto se iniciou o século XX, com 
a expectativa de melhores condições de vida, imbuído também com a ideia de mais tempo 
disponível para o lazer e a família. Ainda não eram pauta de discussão as implicações éticas 
entre técnica e ciência, o que efetivamente importava era a instrumentalidade e a eficácia 
desses novos aparatos. Todas essas mudanças impactaram sobremaneira a vida das pessoas, 
com uma sociedade cada vez mais voltada para o consumismo e imediatismo. 


Diante desse cenário, alguns escritores deixaram registradas suas preocupações, como 
um aviso, por meio de suas obras. Nessas narrativas, a realidade não era apenas assumida 
como ela era de fato, mas as suas práticas e tendências negativas eram em muito ampliadas, 
o que favorecia a construção de um mundo grotesco e, na maioria dos aspectos, triste. Essas 
obras são distopias literárias que têm o seu foco em um futuro hipotético, no qual o controle 
exercido sobre os indivíduos é total e irrestrito, e tenta, inclusive, alcançar a memória dos 
sujeitos, como forma de controlar seu passado e, também, seu futuro. 


A partir do exposto, apresentamos neste capítulo um recorte com os resultados de uma 
análise dos substantivos comuns presentes em Fahrenheit 451, de Ray Bradbury, com o objetivo 
de identificar como eles se apresentam e o que nos revelam sobre a obra. Nesse sentido, 
este texto se apoia na hipótese de nossa pesquisa de doutorado, em andamento, em que um 
romance distópico, com a característica de apresentar várias críticas sociais, revela também 
aspectos de como a linguagem é percebida e compreendida pelas pessoas, pois aborda temas 
como controle social, liberdade de escolha e diferenças. Sendo assim, buscamos analisar as 
escolhas lexicais feitas pelo autor. 


Para a análise do corpus, utilizamos o programa WordSmith Tools 6.0 (doravante WST) 
(SCOTT, 2012) para verificar as ocorrências presentes na obra, que a constituem como um 
alerta, visto que o autor tem como referência a observação de fatos e acontecimentos de sua 
época. 


2 Fundamentação teórica 


A Linguística de Corpus (doravante LC) é uma área do conhecimento que, com auxílio 
computacional, se ocupa do estudo da linguagem, utilizando, para esse fim, grandes quantidades 
de dados que se referem ao uso efetivo da língua. De acordo com Berber Sardinha (2004, p. 3), 
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[...] ocupa-se da coleta e exploração de corpora, ou conjuntos de dados linguísticos textuais 
coletados criteriosamente, com o propósito de servirem para a pesquisa de uma língua ou 
variedade linguística. Como tal, dedica-se à exploração da linguagem por meio de evidências 


empíricas, extraídas por computador. 


Em concordância com o autor supracitado, um corpus não significa apenas uma coletânea 
de textos, já que seu propósito é retratar a lingua, ou ao menos uma parte dela. Ainda segundo 
Berber Sardinha (2004), alguns pontos merecem ser considerados na elaboração de um corpus, 
tais como: que os dados sejam autênticos, que o objeto de estudo seja linguístico, que os textos 
sejam selecionados de maneira criteriosa, sejam legíveis por computador e que o corpus seja 
vasto para que tenha representatividade. O autor apresenta uma definição mais completa que 
compreende essas caracteristicas mencionadas, designando corpus como 


[...] um conjunto de dados linguísticos (pertencentes ao uso oral ou escrito da língua, ou ambos), 
sistematizados segundo determinados critérios, suficientemente extensos em amplitude e 
profundidade, de maneira que sejam representativos da totalidade do uso linguístico ou de algum 
de seus âmbitos, dispostos de tal modo que possam ser processados por computador, com a 
finalidade de propiciar resultados vários e úteis para a descrição e análise (SÁNCHEZ, 1995 apud 
BERBER SARDINHA, 2004, p. 18). 


Uma característica da LC é a possibilidade de observação de dados empíricos de uma 
ou mais línguas, ou suas variantes, que são armazenados em bancos de dados. Além disso, 
a LC conta com ferramentas eletrônicas que foram concebidas com o objetivo de auxiliar o 
pesquisador na análise, contribuindo com o trabalho de verificação dos fenômenos linguísticos. 


Com a extensa possibilidade de pesquisa dentro da LC, o universo literário se apresenta 
como um rico e frutífero meio para investigações linguísticas, principalmente no campo 
lexical, possibilitando um estudo mais completo do fenômeno literário (GONÇALVES, 2008, 
p. 389). O caráter hermenêutico de estudos de textos dessa categoria exige do pesquisador 
uma quantidade significativa de tarefas que demandariam muito tempo, caso fossem feitas 
manualmente. Análises muito específicas e, em determinadas situações, repetitivas podem ser 
realizadas de uma maneira mais rápida e automática por meio de ferramentas computacionais 
que propiciam resultados com muito mais precisão e economia de tempo. Gonçalves (2004, 
p. 311) destaca que 


[...] assim, a Linguística de Corpus se evidencia imediatamente como uma metodologia 
extremamente facilitadora do trabalho de pesquisadores e críticos literários, pois vai além de 
apenas listar palavras, fornecendo entre outras possibilidades palavras-chave dos textos estudados 


e linhas de concordâncias de diferentes tamanhos, dependendo do objetivo da pesquisa. 
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Dessa forma, a capacidade de processar grandes quantidades de dados de modo 
extremamente ágil coloca o computador como um grande aliado do especialista em estudos 
literários, podendo este se dedicar a focalizar mais no seu trabalho de investigação da área 
interpretativa, que é o cerne de atuação do crítico literário. 


A opção por traçar este estudo na obra de Bradbury justifica-se, primeiramente, por 
compor o corpus da pesquisa do meu doutoramento e, também, porque queremos responder 
às seguintes perguntas, já que o autor apresenta como destaque a queima dos livros: se a 
distopia se caracteriza pelo pessimismo em relação à sociedade, com destaque aos sistemas 
totalitários que controlam a vida das pessoas, como se apresentam as escolhas lexicais do 
autor, nomeadamente os substantivos comuns? O que nos mostram esses vocábulos? São 
encontrados lexemas com significados de subversão, que causariam um impacto linguístico? 
Pensamos que o vocabulário utilizado revela aspectos como a manipulação da sociedade, que 
caracteriza o gênero distopia. 


Em Fahrenheit 451, a ação da trama acontece nos Estados Unidos, em um tempo futuro, 
mas não são feitas referências a nenhuma cidade em especial. Apesar de o lugar não ser 
especificado, é apresentado como um espaço tecnologicamente sofisticado e desenvolvido, 
com todas as comodidades e conveniências da vida moderna, que são percebidas conforme 
os personagens descrevem situações cotidianas como, por exemplo, quando Montag na porta 
de sua casa, enfiou a mão no orifício em forma de luva e seu toque foi identificado. A porta 
deslizou, abrindo-se (BRADBURY, 2012, p. 25). 


As pessoas viviam completamente alienadas e estavam entregues a supostos prazeres 
hedonistas”, em um mundo cercado por diversões banais no qual as televisões, ou telões, 
eram a principal atração. Aos poucos, os hábitos de leitura e os livros foram abandonados e as 
pessoas chegaram a um ponto de dependência desses aparelhos que as visitas que, porventura, 
recebiam, eram para assistirem juntas aos mesmos programas televisivos, interagindo com os 
apresentadores e tornando esta uma das principais atividades a serem feitas no seu cotidiano. 


Nesse mundo futurista, muitas situações são diferenciadas, sendo que uma delas é a 
característica das casas serem à prova de fogo. Assim, os bombeiros não apagam incêndios, 
mas a função deles passa a ser outra, que é oposta à que usualmente desempenhariam: devem 
atear fogo e destruir todo e qualquer livro que porventura encontrarem. Isso explica o próprio 
título do livro, Fahrenheit 451, que é a temperatura na qual o papel entra em combustão. 


Em sua narrativa, Ray Bradbury destaca o papel do livro enquanto elemento de formação 
de opinião, pois ele é o responsável por existirem cidadãos conscientes e atuantes no mundo. 


2 Característica da pessoa adepta do hedonismo, que é a busca incessante pelo prazer como bem supremo, uma excessiva busca pelo prazer 
como modo de vida. 
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O conformismo e a alienação que são apresentados funcionam como crítica, já que esses tipos 


de comportamento não geram questionamentos, incertezas, mudanças e crescimento, mas 


tornam as pessoas alvos fáceis e passíveis de manipulação. 


3 Metodologia 


Como exposto anteriormente, este capítulo focaliza um recorte dos resultados de uma 
análise da obra Fahrenheit 451, que, juntamente com 1984 de George Orwell, Admirável Mundo 


Novo de Aldous Huxley e O Presidente Negro de Monteiro Lobato, compõe o corpus de estudo 


de minha pesquisa de doutoramento. 


A pesquisa foi desenvolvida em várias etapas: 


1. 


Seleção de Fahrenheit 451, entre as outras obras que fazem parte do corpus. 


. Conversão do texto em formato .pdf para .docx e, em seguida, para .txt. 
. Revisão e limpeza do arquivo em .txt. 


2 
3 
4, 
5 
6 


Processamento do arquivo no programa WST 6 (SCOTT, 2012). 


. Geração da lista de palavras por meio da ferramenta WordList. 
. Geração de linhas de concordância por meio da ferramenta Concord. 


/. 


Análise dos substantivos comuns no contexto expandido. 


A extensão do corpus de estudo é a seguinte: 52.365 tokens (itens lexicogramaticais ou 


palavras totais, incluindo repetições) e 8.218 types (formas ou palavras individuais). A razão 
forma/item (type/token ratio) é de 15,69%. Esses dados estão indicados na Figura 1, que 
apresenta um recorte da tela do recurso Statistics, da ferramenta WordList. 


Figura: Extensão do corpus Fahrenheit 451. 


(4 F451 Bradbury.lst — E x 
File Edit View Compute Settings Windows Help 


tokens typeitoken 


sum 
text file file size (running tokens used for word list of types (distinct words) ratio (TTR) stang 
words) in text € 


Overall 325680 52657 52 365 


frequency alphabetical | statistics | filenames notes 


Fonte: WordList. 


A Figura 2 ilustra o resultado da lista de palavras ordenada por frequência (frequency) e 


por ordem alfabética (alphabetical, num recorte dos primeiros 20 itens. 
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Figura: Lista de palavras do corpus em ordem de frequência e alfabética. 


w F451_Bradbury.lst w F451_Bradbury.lst 
File Edit View Compute Settings Windows | File Edit View Compute Settings Windows Help 


Texts N Word Freg. % Texts 

1 1 A 1,561 296 1 

1 é A 156 030 1 

1 d ABAFAR 1 1 

1 4 ABAIXAR 1 1 

1 z ABAIXO 8 002 1 

1 é ABAIXOU 1 1 

1 A ABALADO 2 1 

1 É ABALANDO 1 1 

UM 716 1.36 1 E ABALARA 1 1 

ao UMA 568 1.08 1 o ABALOU 2 1 
u EM 567 108 1 u ABANDONADA 1 1 
12 MONTAG 541 1.03 1 12 | ABANDONADO 1 1 
Ro OS 496 094 1 13 ABANDONADOS 2 1 
14 ELE 481 091 1 u ABANDONAR 2 1 
E COM 453 0.86 1 l ABANDONO 1 1 
i AS 426 0.81 1 m ABARROTADO 1 1 
iz DO 411 078 1 u ABAS 1 1 
18 VOCÊ 401 076 1 18 ABASTECER 1 1 
19 É 381 072 1 13 ABATIDOS 1 1 
20 DA 376 071 1 a ABELHA 2 1 


frequency | alphabetical statistco filenames n| frequency | alphabetical | statisticc filenames notes 


Fonte: WordList 


Ao analisar a lista de palavras, nos chamou a atenção o fato de entre essas primeiras 
ocorrências não estar presente nenhum substantivo comum. De fato, o único substantivo 
que ocorre é o nome do protagonista, Montag. Procedemos à análise dos cem (100) primeiros 
types e selecionamos todos os substantivos comuns. Para este capítulo, focalizaremos no 
substantivo casa, o segundo mais frequente no corpus. Passemos à análise e discussão dos 
dados. 


4 Análise e discussão 


Ao analisar as cem (100) primeiras ocorrências, a WordList já nos apresenta os seguintes 
substantivos comuns utilizados pelo autor, conforme mostra a Tabela 1. 
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Tabela 1: Lista de substantivos comuns por ordem de ocorrência. 


Substantivo 
livros/livro 
casa 
noite 
tempo 
coisa/coisas 
olhos 
mundo 
homem 
fogo 


pessoas 


Frequência absoluta 
138/95 
129 
121 
108 
90/69 
89 
84 
78 
73 
72 


Fonte: Elaborada pela autora. 


Essas ocorrências demonstram a opção do autor por substantivos comuns que se referem 


a situações do cotidiano. Essa seleção de palavras evidencia, para além da frequência, que em 


muitos excertos do texto elas apareceriam com proximidade. 


O próximo passo da pesquisa concentrou-se na geração das linhas de concordância, que, de 
acordo com Berber Sardinha (2004, p. 105), "são listagens das ocorrências de um item específico 
(chamado de busca ou nódulo, que pode ser formado por uma ou mais palavras) acompanhado 
do texto ao seu redor (co-texto) . Na Figura 3, apresentamos uma tela com as concordâncias 


da palavra casa, por ordem de ocorrência. 


Figura 3: Recorte das linhas de concordância da palavra casa. 


File Edit View Compute Settings Windows Help 


< 


Se você não quiser que se construa uma casa, esconda os pregos e a madeira. Se 
no começo. Não se pode construir uma casa sem pregos e madeira. Se você não 
e o poderoso trovão metálico! Era uma casa decrépita de três andares na parte 
meu avô. Um lho, um livro, um quadro, uma casa ou parede construída, um par de 
para todos e dizer: Não. É como ter uma casa cheia de mulheres lindas e, sorrindo, 
está havendo? — Montag raramente via uma casa tão iluminada. — Ah, minha mãe, meu 
— Não, água não; fogo. Você já viu uma casa queimada? Fica fumegando durante 
rodovias barulhentas, atrás de uma tranquila casa de fazenda e sob um antigo catavento 
pés carregando-o pela calçada rumo a sua casa. — Continue falando. 111 “Quer que eu 
é 149 mulher de um bombeiro, é a sua casa e a sua vez, por todas as casas que 
é Blake) que se recusa a abandonar sua casa, preferindo morrer no incêndio de sua 
pregada com percevejos à porta de sua casa. Diariamente, Clarisse o acompanhava 
a soprar da grelha do ventilador de sua casa, suave, suave, refrescando seu rosto. E, 
na grade do ventilador no corredor de sua casa e no que jazia oculto atrás dela. Se 
Montag parou de rir. 25 Na porta de sua casa, en ou a mão no orifício em forma de 
Não pode ter livros em sua casa! Ao que o Chefe, com um sorrisinho 
de um leve tremor, Faber olhou para sua casa, as paredes, a porta, a maçaneta e o 
cientes quando mandei o Sabujo rondar sua casa? O rosto de Montag estava totalmente 
assim vamos car na rua da amargura, sem casa, sem trabalho, sem nada. — Você não 
garota da casa ao lado. — Que garota, que casa? — Você sabe, a garota do colégio. O 


Concordance 


Set 


129 entries 


Row 1 


Fonte: Concord. 


concordance | collocates plot patterns dusters timeline filenames source text notes 
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Na sequência passamos para a expansão das linhas de concordância para então selecionar 
os trechos que seriam analisados, como mostra a Figura 4. 


Figura 4: Palavra casa em contexto expandido. 


Eile Edit Vies Compute eting Windows Help 


mando, prestes a estourar 05 ans Vá para casa e pense nos dez 


abortos que você fez, vá para casa è pense nisso &, também, nas suas 
makitas cesananas e nos filhos que sentem ódio mortal de você! Vá 
para casa e pense como tudo isso aconteceu e no que você fez para 
pôr um fim nisso. Vå para casa, vá para casa! - gritou ele. - Antes 

que eu lhe bala e a expulse daqui a pontapés! 


As portas bateram e a casa ficou vazia. Montag parou sozinho no 
centro do invemo, com as paredes do salão da cor de neve suja 


No banheiro, a água coma, Ele ousu Mildred sacudir na mão as 
piulas para dormir. 


"Montag, seu tolo, tolo, ah, meu Deus, seu tolo estúpido... 


- Cale-se! - Amrancou a cápsula verde da orelha e a enfiou no 
bolso, 


A cápsula continuou a chiar, baixinho: 
“o tolo... tolo.” 


Montag procurou pela casa e encontrou gs vos atrás do 

refrigerador, onde Mildred os havia empilhado, Faliavam alguns e ele 
percebeu que ela iniciara seu processo lentão e pessoal de desmontar à 
dinamite da casa, cartucho por cartucho. Mas ele agora não estava 
irado, só exausto e confuso consigo mesmo. Levou os livros para O 
quintal & às escondeu nos arbustos junto à cerca, 50 por esta noite, 
pensou ele, caso ela decida queimar mais alguns. 


Ele tomou a entrar em casa 
Fonte: Concord. 


Ao analisar a palavra casa nesse contexto expandido da Figura 4, percebemos que, mesmo 
que não estejam todos os outros substantivos comuns presentes na Tabela 1, o sentido deles 
se faz perceber. Além de casa estão neste trecho noite e livros. Os vocábulos pessoas e fogo 
não ocorrem, mas se fazem perceber pelo contexto, pois Montag discute com uma amiga de 
Mildred (pessoas) e depois decide esconder os livros ...] caso ela decida queimar mais alguns.” 
(BRADBURY, 2012, p. 121), em referência ao fogo. 


5 Considerações finais 


Ao discorrer sobre a narrativa distópica de Fahrenheit 451, percebemos como Ray Bradbury 
apresenta sua preocupação com o futuro da humanidade diante de situações desencadeadas 
pelo desenvolvimento cada vez maior da tecnologia e ciência. Ele expõe circunstâncias que 
retratam o cotidiano das pessoas, pois, enquanto escritor, sabia o quão importante eram os 
livros na formação, pois o foco da sua crítica recai também na morosidade e passividade das 
pessoas. 


Retomando, com base em nossa hipótese da pesquisa de base — segundo a qual um romance 
distópico, com a característica de apresentar várias críticas sociais, revela também aspectos 
de como a linguagem é percebida e compreendida pelas pessoas -, acreditamos que a obra 
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de Bradbury cumpre o seu papel social de alerta, já que a língua é indiscutível na construção 
social e é um instrumento essencial nas relações humanas e no fomento da cultura. 


A análise das escolhas lexicais revela que os substantivos comuns que se apresentam 
nessa obra distópica são palavras da rotina das pessoas, ratificando que o autor se baseava na 
observação de fatos e acontecimentos de seu tempo, para deixar registrado o seu aviso. Como 
resposta à última pergunta, até o momento não foram encontrados vocábulos com significados 
de subversão ou de difícil compreensão. Como o próprio Bradbury pontuou: não escrevo para 
prever as coisas, mas para evitá-las” (SILVA, 2006, p. 319). À guisa de conclusão, consideramos 
que Fahrenheit 451 traz à baila discussões e questionamentos que são tão importantes hoje 
quanto o foram na época em que foi escrita. 
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1 Introdução 


A escolha da obra Minha História (OBAMA, 2018), autobiografia de Michelle Obama, se deve 
ao fato de esta obra ter se tornado um sucesso, um recorde em números de vendas e acessos 
em diversas plataformas digitais. Foi também considerada inspiradora em vários aspectos, 
tanto na esfera social, das lutas de classe, como no âmbito cultural e político, no que tange à 
representatividade da mulher contemporânea. 


Diante disso, focalizamos a análise do nome “Barack no discurso da autora, que não apenas 
ocupa o papel social de mulher, mas também de esposa, ícone e influenciadora social. Vale 
ressaltar que a análise linguística holística e semiótica centrada no uso, ou seja, sistêmica e 
funcional, visa entender a produção dos significados em situações de comunicação reais, O 
que torna pertinente o uso de corpora em nossa investigação. 


Nesse ínterim, a Linguística de Corpus (LC) propõe que as palavras não são dispostas de 
modo aleatório nos textos. Sob uma visão estatística, Halliday (1994) enfatiza que a linguagem 
compreende um sistema de probabilidades, cuja face mais notável é a frequência de uso das 
palavras. Logo, a LC promove a possibilidade de indagar corpus, com o objetivo de desvendar 
as relações linguístico-culturais, por meio de pesquisas que valorizam a representatividade 
das escolhas lexicais em atos de fala e de escrita reais (TEUBERT et al., 2004). 


De acordo com Halliday e Matthiessen (2004), Halliday e Hasan (1989), Eggins (1994), Martin 
e Rose (2003), Thompson (2004) e Martin e White (2005), a Linguística Sistêmico-Funcional 
(LSF) considera os conceitos de linguagem, língua, cultura e identidade por meio do uso e 
de seus contextos de produção. Também com base nos estudos da Tradução (BAKER, 1993, 
1999), pretendemos associar as leituras sobre normas de Toury (1995), voltadas aos contextos 
socioculturais de produção de Textos Meta (TMs), aos princípios da LSF e à compreensão de 
como os tradutores de Michelle Obama lidaram com os contextos de situação, no tocante ao 
uso do nome Barack. 


As seções subsequentes apresentam a fundamentação teórica, os procedimentos 
metodológicos do estudo em questão, os resultados obtidos com uma breve discussão, bem 
como as considerações finais. 


2 Principios da linguistica sistêmico- 
funcional 


Segundo Almurashi (2016), a LSF foi desenvolvida por Michael Halliday a partir dos anos 
1960 no Reino Unido e concentra-se em analisar os discursos tanto orais quanto escritos, com 
foco na função da linguagem. Os termos Sistêmico e Funcional” são explicados por Fuzer e 
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Cabral (2014), quando identificam que sistemas linguísticos e estruturas de linguagem podem 
cooperar para o significado em um texto e, em seguida, explicar o efeito ou impacto que tais 
combinações podem causar ao utilizarmos da linguagem. Assim: 


[...] todo e qualquer uso que fazemos do sistema linguístico é funcional relativamente às nossas 
necessidades de convivência em sociedade. Ao usarmos a linguagem fazemos, portanto, uma 
série de escolhas dentre as possibilidades que o sistema linguístico disponibiliza. Em vista 
disso, precisamos desenvolver nossa consciência sobre os significados que as palavras e suas 
combinações em textos geram para alcançarmos efetivamente nossos propósitos em contextos 
específicos (FUZER; CABRAL, 2014, p. 19). 


Dessa forma, uma visão sistêmico-funcionalista propõe explorar a estruturação de uma 
língua em variados contextos, focando a linguagem pelas relações sociais, que motivam, 
conscientemente, as escolhas lexicogramaticais. Sendo assim, a funcionalidade recai no fato 
de a gramática interpretar as formas linguísticas, bem como a descrição semântica, uma vez 
que a linguagem, considerada prática social, sempre terá um objetivo, uma finalidade específica. 


O interesse da LSF baseia-se em verificar como se realiza a comunicação, compreender a 
relação entre texto e contexto se faz necessária. O texto, para Halliday e Matthiessen (2004, 
p. 4-5), é '[...] qualquer instância da linguagem, em qualquer meio, que faz sentido a alguém 
que conhece a linguagem”. Uma das grandes contribuições da LSF é, certamente, lançar um 
olhar para a língua que ultrapassa sua estrutura interna, e que englobe toda a esfera social 
exercendo a função comunicativa, uma visão global, do todo e não mais de partes estanques. 
Assim, podemos perceber os textos para além dos seus aspectos linguísticos, mas também 
considerando suas características extralinguísticas, que aqui são consideradas como contexto 
de cultura e de situação. 


A LSF é uma perspectiva teórico-metodológica que não vê a língua dissociada do contexto 
em que ela se insere. Nesse sentido, Fuzer e Cabral (2014, p. 26) afirmam que '[...] o contexto 
em que o texto se desenvolve está encapsulado no texto através de uma relação sistemática 
entre o meio social e a organização funcional da linguagem. Pode-se depreender que, segundo 
Halliday (1994, 2004), a língua é percebida a partir de dois conceitos-chave relativos ao contexto, 
ao gênero e ao registro, que podem estar relacionados tanto à cultura, quanto à situação, pois: 


[...] o gênero pode ser também denominado contexto de cultura, e o registro, contexto de situação. 
O gênero é entendido como um nível mais abstrato, mais geral do contexto; enquanto o registro 
diz respeito a um conceito semântico que corresponde a um nível intermediário entre o contexto 
de uso e a linguagem, isto é, o lugar onde as variáveis linguísticas são realizadas. Desta forma, o 


registro descreve o contexto situacional no qual o texto é produzido (ALMEIDA, 2010, p. 19). 
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Visto isso, considera-se, aqui, que a obra de Michelle Obama realiza o contexto situacional, 
que pode ser descrito por meio do Registro. Lembrando que os termos registro e gênero para 
a LSF referem-se respectivamente ao contexto de situação (microcontexto — o que está mais 
próximo ao texto) e ao contexto de cultura (macrocontexto — valores, crenças já estabelecidas). 
Estes conceitos apresentados serão explorados ao longo da pesquisa e das análises, uma 
vez que, para a LSF, o texto está intrinsecamente ligado aos contextos em que a língua é 
instanciada. 


2 Material e método 


Um corpus paralelo bilingue unidirecional (inglês-português), constituído pela obra Becoming, 
de Michelle Obama (2018), e a respectiva tradução para o português, sob o título Minha História, 
elaborada por Débora Landsberg, Denise Bottman e Renato Marques e distribuída no mesmo 
ano em nosso país. 


3 Metodologia 


Esta pesquisa se insere no paradigma quanti-qualitativo. Pretendemos produzir resultados 
analisados, não apenas por meio de procedimentos estatísticos ou outras técnicas de 
quantificação, mas também pelos métodos de interpretação qualitativa. 


Além de o estudo ser de cunho bibliográfico, consideramos que a sua natureza é descritiva, 
porque categorizamos as escolhas lexicais e semântico-discursivas usadas por Michelle Obama 
no Texto Fonte (TF) e seus tradutores, respectivamente. Também pode ser caracterizada como 
analítica, por apurarmos e interpretarmos as representações discursivas selecionadas que 
compõem o corpus. 


Para a organização do corpus, utilizamos o software LancsBox”, versão 5.0 (BREZINA; WEILL- 
TESSIER; McENERY, 2020), que classifica e nomeia os dados em cinco categorias, a saber: 
KWIC, GRAPHCOLL, WHELK, WORDS, NGRAMS, TEXT e WIZARD. De maneira sucinta, cada 
uma está ligada a determinada funcionalidade do referido programa e de suas ferramentas. 
Especificamente em nossa investigação, utilizamos: 


e GRAPHCOLL, que apresenta as colocações em formato de gráfico; 


e WHELK, na qual são organizadas as informações de comportamento do item lexicogramatical 
ou como ele está distribuído no corpus de pesquisa; 


e WORDS, que produz uma lista de palavras, as identifica e as visualiza em determinado texto; 


e NGRAMS, com a qual se encontra um grupo de palavras que aparecem mais vezes juntas 
-O N se refere ao número de palavras a serem identificadas pelo usuário; 


e TEXT, que apresenta o contexto relacionado ao item previamente escolhido para a pesquisa. 
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4 Analise dos dados e discussão 


Com base no uso inicial da ferramenta LancsBox”, levantamos o número de itens lexicais 
(total de palavras) e a quantidade de palavras diferentes no texto. Além disso, vale ressaltar 
aqui que o software tem a função de lematizar o corpus, por isso verificamos os lemas, ou seja, 
uma representação canônica das entradas de um dicionário (BIDERMAN, 1999), conforme a 
Tabela 1: 


Tabela 1: Número de itens, formas e lemas. 


CORPUS TENS | FORMAS | LEMAS 


"Becoming" 163.508 14.543 12.890 
“Minha História” 162.693 17.733 18.892 


Fonte: Elaboração da autora. 


Notamos que o TM possui 2.815 palavras a menos que o TF, embora haja 3.190 formas a 
mais; logo, os tradutores obtiveram uma densidade vocabular maior. No que diz respeito a 
WORD, observamos que a palavra mais frequente, nos dois subcorpora do corpus paralelo, é o 
nome Barack”, relacionado ao então ex-presidente dos Estados Unidos e marido de Michelle; 
desse modo, corroboramos a pertinência da proposta inicial do estudo proposto. 


A seguir, apresentamos as Tabelas 2 e 3 por ordem de frequência, que indicam as palavras 
mais frequentes com base substantival (nomes) e a frequência absoluta no corpus: 


Tabela 2: Palavras de maior frequência no TF. 


SUBSTANTIVO (NOME) FREQUÊNCIA 


Barack 667 
Time 3/2 
People 350 
House 303 
School 301 
Day 296 
Work 248 
Years 248 
Home 241 
Life 214 


Fonte: Elaboração da autora. 
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Tabela 3: Palavras de maior frequência no TM. 


SUBSTANTIVO (NOME) FREQUÊNCIA 


Barack 877 
Casa 499 
Anos 348 
Dia 324 
Vida 307 
Tempo 305 
Pessoas 267 
Trabalho 240 
Família 199 

Escola 177 


Fonte: Elaboração da autora. 


Nesse prisma, depreendemos que a tradução para a lingua portuguesa utilizou um conjunto 
maior de palavras para construir significados semelhantes, com variação na frequência dos 
substantivos mais utilizados (em comparação à tabela anterior), principalmente no que concerne 
ao nome Barack”, abordado 210 vezes a mais no TM do que no TF. Assim, podemos pressupor 
que a avaliatividade relativa ao nome próprio mais frequente utilizado pela autora também 
deve ser percebida ao substituí-lo por pronomes que se refiram a ele. 


Convém salientar que no TM e nos excertos analisados a seguir, respectivamente, há a 
tradução literal, a substituição de palavras (nomes por pronomes, por exemplo), o acréscimo e 
a supressão de vocábulos e, novamente, a adição de palavras. A autora só se refere a Barack” 
ao final da primeira parte do livro (composto de três partes), quando acontece o primeiro 
contato profissional entre ambos. 


A Gramática Sistêmico-Funcional (GSF) denomina Processos, no plano da Semântica do 
discurso, aquilo que a Gramática Tradicional trata como verbos. Cada Processo é ligado a, pelo 
menos, uma das três metafunções da linguagem que, de acordo com Fuzer e Cabral (2014, 
p. 32), dizem respeito às manifestações, [...] no sistema linguístico, dos propósitos que estão 
subjacentes a todos os usos da língua: compreender o meio (ideacional), relacionar-se com 
os outros (interpessoal) e organizar a informação (textual). 


Interessa-nos evidenciar, no discurso de Michelle Obama, as representações dos participantes 
envolvidos nos processos das orações. Nesse sentido, a metafunção ideacional e sua função 
experiencial utilizam a oração pelo sistema de transitividade e demonstram como ocorre a 
representação do indivíduo ao expressar suas experiências, sejam elas materiais ou a nível de 
consciência (FUZER; CABRAL, 2014). 
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Em linhas gerais, a GSF, por meio da TRANSITIVIDADE, considera três componentes da 
oração: o Processo (grupos verbais), os Participantes (grupos nominais) e a Circunstância 
(grupos adverbiais). Diante dos dados apresentados nas Tabelas 4 e 5, selecionamos 67 
excertos que compõem a primeira parte do livro, para eles serem analisados sob o viés da LSF, 
principalmente no TM: 


Tabela 4: Tipos de processos e suas ocorrências no TM em orações com Barack. 


TIPOS DE PROCESSO QUANTIDADE | PORCENTAGEM 


Material 24 35,82 
Mental 14 20,90 
Relacional 16 23,88 
Comportamental 5 746 
Verbal / 10,45 
Existencial 1 1,49 


Fonte: Elaboração da autora. 


Tabela 5: “Barack” como participante dos processos e suas ocorrências no TM. 


PARTICIPANTES NO PROCESSO MATERIAL QUANTIDADE 
Ator 16 

Meta 2 
Escopo processo 2 
Beneficiário recebedor O 
Beneficiário cliente 4 
Atributo 0 
PARTICIPANTES NO PROCESSO MENTAL QUANTIDADE 
Experienciador 6 
Fenômeno 8 
PARTICIPANTES NO PROCESSO RELACIONAL QUANTIDADE 
Portador 9 
Atributo 0 
Identificado 4 
Identificador 2 
Possuído O 
Possuidor 1 
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PARTICIPANTES NO PROCESSO COMPORTAMENTAL QUANTIDADE 


Comportante 4 
Comportamento 1 
PARTICIPANTES NO PROCESSO VERBAL QUANTIDADE 
Dizente 6 
Verbiagem 0 
Receptor 1 

Alvo 0 
PARTICIPANTES NO PROCESSO EXISTENCIAL QUANTIDADE 
Existente 0 
Circunstância 1 
TOTAL 67 


Fonte: Elaboração da autora. 


De acordo com Halliday e Matthiessen (2014), três processos principais elencam as 
experiências do ser humano — Materiais (referem-se ao fazer), Mentais (relativos à consciência) 
e Relacionais (que estabelecem relações) — e outros três que estariam à margem dos primeiros: 
Comportamentais (comportamento humano), Existenciais (representação do que existe ou 
acontece) e Verbais (atividades linguísticas e processos do dizer). Nesse caso, cada um trata 
os participantes e as circunstâncias sob Óticas diversas e recebe outras denominações. 


Coincidentemente (ou não), os três principais processos pensados a priori por Halliday 
e Matthiessen (2014) foram os mais recorrentes na parte da obra analisada. Destacamos o 
Processo Material, que apareceu 35,82% das vezes, isto é, 24 ocorrências de 67 excertos, seguido 
pelo Relacional, com 23,88% (16 ocorrências), e o Mental, com 20,90% (14 ocorrências). 


O Processo Material conta com vários tipos de participantes, a saber: Ator, Meta, Escopo- 
entidade, Escopo-processo, Beneficiário recebedor, Beneficiário cliente, Atributo (uma 
característica dos participantes) e várias Circunstâncias, como Extensão, Localização, Modo, 
Causa, Contingência, Acompanhamento, Papel, Assunto e Ângulo. 


As Tabelas 4 e 5 explicitam as ocorrências do corpus analisado e comprovam a densidade 
dos números, que foram posteriormente analisados em Microsoft Office Word . Em suma, 
as escolhas linguísticas da autora demonstram que ela decide representar o então marido 
e ex-presidente dos Estados Unidos por meio de processos que estabelecem mudanças no 
decorrer dos eventos, em que ele é o participante envolvido, na maioria das vezes, por esse 
fazer/acontecer. Isso lhe confere uma posição de positividade frente à realidade apresentada 
e ao contexto em questão. 
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No entanto, para este estudo, visamos demonstrar que, pela teoria da LSF, mais precisamente 
da metafunção experiencial, as escolhas linguísticas da autora indicam as representações e 
as experiências de Barack no mundo - isso reforça que a presente análise não é simplista, 
tampouco especulativa, mas sim baseada em fatos, ao invés das hipóteses. Seguem alguns 
exemplos pertinentes para reafirmar que a classificação de transitividade, mesmo que em 
uma análise inicial, não se encerra neste momento. De fato, existem outros desdobramentos 
e podemos ir além da identificação de participantes, processos e circunstâncias; porém, os 
elementos abordados no texto são suficientes para cumprir o propósito deste trabalho. Aqui 
priorizamos o participante Barack e o(s) processo(s) envolvido(s) nele e focalizamos na obra 
traduzida: 


Barack Obama chegou atrasado no primeiro dia 


Quando chegou o outro dia de happy hour, deixei 
Oração Material Beneficiário Cliente 


Barack sabia exatamente como eu me sentia 


Oração Mental Cognitiva 


Barack era sério sem se levar muito a sério 
Portador Oração Relacional 


Barack tinha um sorriso que parecia se esticar por toda a extensão do rosto 
Possuidor Oração Relacional 


A seguir, apresentamos algumas considerações, uma vez feitas as análises ao longo desta 


seção. 
5 Considerações finais 


Interessante ressaltar que o mais difícil, talvez, é salientar que escolhas diferentes podem 
representar um mesmo construto (MATTHIESSEN, 2001). Não se espera que os textos de 
partida e de chegada sejam exatamente iguais, dado que a retextualização do tradutor precisa 
passar por novas decisões de textualização e salvaguardar os contextos e as experiências de 
vida da autora. Conforme os excertos analisados, há importância de a atividade tradutória em 
se alinhar aos pensamentos de Halliday (1985, 1994) ou de Halliday e Matthiessen (2004). Eles 
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veem a linguagem como uma prática social comunicativa, na qual as escolhas dos usuários 
(autor e tradutor) se (inter)relacionam em uma estrutura sociocultural mais abrangente, o que 
ocorre nas relações interpessoais, na construção da experiência humana e na organização da 
mensagem. 


Até o momento, a positividade presente na autobiografia analisada nos faz questionar acerca 
da voz autoral de Michelle quanto a esse gênero. A perfeição de seu marido nunca é tangida 
quanto a um caráter duvidoso ou que apresente angústias, debilidades, entre outros, uma vez 
que ela recorre a recursos negativos somente em termos voltados à moda e à vestimenta de seu 
companheiro (deficiente noção de estilo). Isso nos possibilita questionar o fato de tal recurso 
ser empregado para humanizar Barack em seu texto, algo que ainda está em investigação, 
principalmente quanto ao modo de se comunicar e transmitir confiança, seriedade etc. Vale 
ressaltar que estas considerações se baseiam na análise das orações elencadas na primeira 
parte do livro. 


Destarte, em sua autobiografia, a autora, ao mencionar o então marido, realiza escolhas 
linguísticas avaliativas de apreciação por meio de adjetivos e predicativos do sujeito que o 
colocam frequentemente em uma posição de excelência, o que nos leva a considerar os pontos 
que a aproximam do gênero autobiográfico e os que a distanciam de fato. Tais questionamentos 
serão realizados em uma análise mais aprofundada e, por enquanto, ficam a título de reflexão. 
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1 Introdução 


O presente trabalho é parte de uma pesquisa de mestrado em andamento, cujo objetivo 
é identificar e analisar a ocorrência de Processos Existenciais em corpus paralelo bilíngue 
constituído pelos contos wildianos de A house of pomegranates e duas traduções para o 
português brasileiro, a primeira de 1961 e a segunda de 2012. Por meio desta pesquisa, buscamos 
testar a hipótese da retradução (BERMAN, 2017) e contribuir para a descrição sistêmico- 
funcional da realização de significados existenciais no português brasileiro, pelo viés dos 
estudos da tradução. 


As orações existenciais (OE) importam ao discurso, pois realizam gramaticalmente a 
existência e o acontecimento. A identificação e a quantificação dos Processos Existenciais 
nos três subcorpora de pesquisa foram realizadas com o auxílio de software e segundo os 
pressupostos metodológicos da Linguística de Corpus. Os resultados foram, então, analisados 
e cotejados à luz dos preceitos da Linguística Sistêmico-Funcional. 


Apresenta-se aqui resultados parciais da análise das ocorrências de orações existenciais 
realizadas por Processos Existenciais prototípicos em inglês e em português em corpus literário. 


2 Orações existenciais 


Conforme apontam Halliday e Matthiessen (2014), a linguagem constrói a experiência 
humana por meio do sistema de TRANSITIVIDADE subsumido ao componente experiencial 
da metafunção ideacional, que organiza o fluxo de eventos na forma de figuras, compostas de 
Processo, Participante e Circunstância, dos quais o primeiro é o elemento central e é responsável 
por criar a figura, cuja experiência é realizada na oração. Para o sistema de TRANSITIVIDADE da 
lingua inglesa, os autores arrolam seis tipos de Processos, a saber, Material, Mental, Relacional, 
Comportamental, Verbal e Existencial. 


O Processo Existencial, foco de nossa pesquisa, situa-se entre os Processos Material de 
acontecimento e Relacional de atribuição, ou seja, os processos existenciais estão localizados 
no limite do mundo das relações abstratas e do mundo físico (FERREGUETTI; PAGANO; 
FIGUEREDO, 2012, p. 283). 


Por meio do Processo Existencial, constata-se a existência de todo tipo de fenômeno, indica- 
se que algo existe ou acontece. Embora pouco frequente no discurso, esse Processo pode 
prestar-se a introduzir participantes no estágio inicial de uma narrativa, apresentar fenômenos 
ao longo do curso da narrativa ou indicar lugares de interesse (HALLIDAY; MATTHIESSEN, 2014; 
LIMA; BARROS, 2018). 
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A figura de existir compõe-se obrigatoriamente do Processo Existencial e de um participante, 
o Existente. Eventualmente, Circunstâncias de tempo ou de lugar podem ligar-se à figura. 


3 Metodologia 


O material de análise desta pesquisa compõe-se de três subcorpora: corpus Wilde, em 
inglês, constituído da versão digitalizada dos quatro contos que integram a coletânea wildiana 
A house of pomegranates — publicada pela primeira vez em 1891 e, hoje, disponibilizada em 
Internet Archive; e os corpora Mendes e Salgado, em português brasileiro, contendo a versão 
digitalizada das traduções de 1961 (Uma casa de romãs, de Oscar Mendes) e 2012 (A casa das 
romãs, de Luciana Salgado) da coletânea wildiana. O corpus tem as seguintes características 
(Tabela 1): 


Tabela 1: Características do corpus de estudo. 


CARACTERÍSTICA WILDE MENDES SALGADO 
tamanho 173.952 172.212 173.430 
tokens no texto 33.466 30.460 30.575 
token para lista de palavras 33.466 30.459 30.575 
types 3.780 5.546 5.407 
TTR 25,67 18 18 
TTR normalizada 4110 46,21 46,29 
TTR normal. desvio padrão (base 1.000) 46,87 48,20 48,08 
orações 1.558 1.610 1.587 
parágrafos 540 812 521 


Fonte: Dados da pesquisa. 


Para mapear os Processos Existenciais utilizados nos contos, recorreu-se às ferramentas 
WordList e Concord da suíte WordSmith Tools 4 (SCOTT, 2004): com o primeiro, extrairam-se, 
inicialmente, os dados gerais do corpus de estudo e uma lista de palavras, por meio da qual 
se localizou a forma there; e com o segundo, apuraram-se as 64 linhas de concordâncias de 
interesse deste estudo — aquelas que constituem Processos Existenciais — com base nas 100 
ocorrências totais da forma there. 


A fim de se localizarem as traduções correspondentes às linhas de concordância de interesse, 
os subcorpora foram alinhados com o Wordfast Anywhere (WORDFAST, 2021), gerando-se uma 
planilha eletrônica com cada corpus em uma coluna distinta. 
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4 Resultados e discussão 


Apresentam-se, a seguir, os resultados parciais da análise das orações existenciais no 
corpus de estudo. 


4.1 OE em ingles 


As OE em inglês são prototipicamente realizadas por there be, em que there, originalmente 
um locativo, não tem outra função que não a de sujeito do verbo em nível interpessoal, e nada 
realiza no sistema de TRANSITIVIDADE. Ademais, outros verbos lexicais podem realizar OE com 
o uso de there, que ocupa, então, a posição temática, de modo a indicar que se vai apresentar 
um Existente, geralmente um ente não específico (PAGANO; FIGUEREDO; FERREGUETTI, 2012). 


Davidse (1999) distingue OE cardinais e OE enumerativas que quantificam e enumeram, 
respectivamente, as instanciações do hiperônimo a que corresponde o Existente. Nas cardinais, 
o Existente pode ou não ser específico e there é opcional, ao passo que, nas enumerativas, O 
Existente é específico (genérico ou definido) e a presença de there é obrigatória. 


No corpus de estudo, foram identificadas 64 ocorrências de OE prototipicamente realizadas 
por there be (Tabela 2): 


Tabela 2: Ocorrências dos Processos Existenciais prototípicos no corpus de estudo. 


PROCESSOS VERBAIS CONTO!  CONTO2Z CONTOS  CONTO4 TOTAL 


There is 5 1 16 5 27 
There are 0 0 2 1 3 
There was 0 7 5 7 19 
There were 0 5 5 0 10 
There be 0 0 2 0 2 
There being 1 0 0 0 1 
There will be 0 0 1 0 1 
There had been 1 0 O O 1 
Total 7 13 31 13 64 


Fonte: Dados da pesquisa. 


A maior ocorrência de OE em The fisherman and his soul (O pescador e sua alma, conto 
3) deve-se, em parte, à maior extensão do conto e ao fato de ser, em grande medida, um relato 
que a personagem Alma faz de sua peregrinação pelo mundo a um jovem pescador. 
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Em sua maioria, os Existentes compreendem entes não específicos (45 ocorrências), como 
em under the shadow of a rock there was a figure that had not been there before (sob a 
sombra de um rochedo, havia uma figura que não estava ali antes ). Também são maioria as 
OE cardinais. Foram identificadas apenas cinco instâncias de OE enumerativas, como There 
were opals and sapphires, the former in cups of crystal, and the latter in cups of jade” ( Havia 
opalas e safiras, as primeiras em taças de cristal e as segundas em taças de jade). 


4.2 OE em português 


Diferentemente do inglês, o verbo haver, realizador prototípico de OE no português, não 
é acompanhado de elemento que exerça a função interpessoal de sujeito — a figura de existir 
compõe-se apenas do Processo e do Existente e eventualmente de Circunstâncias de tempo 
e lugar. 


Pelo viês da semântica discursiva, Franchi, Negrão e Viotti (1998) arrolam verbos lexicais 
que podem realizar OE em português brasileiro, notadamente os verbos ter, existir e haver 
(aqui apresentados em ordem decrescente de frequência no corpus dos autores). Afirmam 
ainda os autores que as construções existenciais com ter constituem uma singularidade do 
PB [...] em relação às construções existenciais com haver (FRANCHI; NEG RÃO; VIOTTI, 1998, 
p. 106, grifos dos autores). 


Analisando a ocorrência de OE em dois corpora, um monolingue e outro paralelo bilingue 
português-italiano, Ferreguetti, Pagano e Figueredo (2012) identificaram que nas traduções havia 
menos OE e que, em alguns casos, ou foram substituídas por outros Processos (notadamente 
relacionais, materiais e mentais) ou não foram realizadas. 


No corpus de estudo, verificou-se uma tendência a se traduzir as OE prototípicas inglesas 
pelo verbo haver em português, que responde por 68,/5% das ocorrências no subcorpus Mendes 
e 65,63% no subcorpus Salgado; o verbo existir, por sua vez, responde por /81% em Mendes e 
21,8/% em Salgado. 


Tabela 3: Ocorrências dos Processos Existenciais prototípicos nas traduções. 


PROCESSOS VERBAIS MENDES SALGADO TOTAL 


Haver 44 42 86 
Existir 5 14 19 
Total 49 56 105 


Fonte: Dados da pesquisa. 
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Não se verificou nenhuma ocorrência do grupo verbal ter na realização de Processo Existencial 
na tradução das OE prototípicas inglesas do corpus. Nesse sentido, os dados divergem dos 
resultados de Franchi, Negrão e Viotti (1998), ressalvadas as diferenças metodológicas deste 
e daquele estudo. 


Além disso, a análise dos textos alinhados permitiu perceber mudanças de tipo de Processo 
nos textos traduzidos como resultado das escolhas tradutórias para os verbos lexicais que no 
texto fonte realizam Processos Existenciais, como indica o Quadro 1: 


Quadro 1: Traduções das OE prototípicas inglesas. 


WILDE MENDES PROCESSO SALGADO PROCESSO 
The Lizards were As Lagartixas são Existencial Lagartixas são Relacional 
extremely philosophical extremamente extremamente 
by nature, and often sat filosóficas por filosóficas por 
thinking for hours and natureza e muitas natureza, e sempre 
hours together, when vêzes passam horas e se sentam juntas por 
there was nothing elseto horas ininterruptas a horas e horas, quando 
do, or when the weather pensar, quando não há não têm nada mais 
was too rainy for them to outra coisa a fazer, ou a fazer, ou quando o 
go out. quando o tempo está tempo está chuvoso 
demasiado chuvoso demais para poderem 
para que elas possam sair. 
sair. 
There was no other Não se ouvia ruído Mental Não havia nenhum Existencial 
sound save the sound senão o das ondas outro som além do 
of a wave fretting the agitando-se sôbre os barulho das ondas 
smooth pebbles below. seixos polidos. roçando os seixos 
macios lá embaixo. 
There are nine gates to Tem nove portas essa Relacional há nove portões Existencial 


this city 


cidade 


naquela cidade 


Fonte: Dados da pesquisa. 


Outros Processos que traduzem as OE prototípicas inglesas constantes do corpus de 
estudo são escutar, estar, obter, repartir e ser. Ademais, quatro instâncias em Mendes e duas 
em Salgado não realizaram nenhum Processo, como: [there is a little city hard by] in which 
there is a garden of tulip-trees”, por [Muito perto daqui há uma pequena cidade] com um jardim 
de tulipas no subcorpus Mendes. 


5 Considerações finais 


Apresentou-se, aqui, uma pequena parte dos dados de uma pesquisa de mestrado em 
andamento. Percebe-se, entretanto, que a metodologia e o tipo de análise se mostram úteis 
para a investigação de OE em corpus paralelo bilingue unidirecional inglês-português. 
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Assim como em Ferreguetti, Pagano e Figueredo (2012), verificou-se também menos OE 
nas traduções, o que pode ser explicado pelas escolhas tradutórias que produziram outros 
Processos, quais sejam, Mental e Relacional, ou simplesmente não realizaram nenhum Processo. 
Ainda assim, verificou-se que no subcorpus Salgado há mais Processos Existenciais traduzindo 
as OE prototípicas inglesas do que no subcorpus Mendes, o que pode corroborar a hipótese da 
retradução de Berman (2017). Conforme essa hipótese, a primeira tradução de um texto tende 
a se aproximar mais da língua e da cultura do público da tradução, ao passo que a retradução 
tende a se aproximar mais do texto-fonte. 


Ademais, dada a limitada extensão dos dados analisados, os resultados devem ser tratados 
apenas como indicativos de tradução e não podem ser generalizados. 
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1 Introdução 


Em pesquisas anteriores (LISBOA, 2020, 2021a, 2021b), constatamos, a partir de corpora 
especializados monolíngues (português), que há uma alta variação terminológica formal e 
conceitual na área de Português como Lingua Não Materna (PLNM), à qual se vincula a área 
de Português como Língua de Acolhimento (PLAc). Neste estudo, objetivamos analisar e 
descrever traduções de língua de acolhimento, Português como Língua de Acolhimento e 
PLAc, bem como verificar se há variações formais nessas traduções. Nossa hipótese é que 
se não há padronização em português, o mesmo poderá ser verificado em língua inglesa, haja 
vista que a alta variação terminológica é um traço expressivo e característico da área de PLNM. 


Este estudo vincula-se à Terminologia e utiliza a Linguística de Corpus como metodologia. 
Para realizar as análises, partimos de um corpus paralelo bilíngue (português-inglês) unidirecional, 
composto por resumos e palavras-chave de dissertações e teses brasileiras vinculadas à 
área de PLAc. Esse corpus compreende dois subcorpora, um em português, oriundo de um 
estudo bibliométrico realizado anteriormente (LISBOA et al., 2021), e um em inglês, compilado 
especificamente para este estudo exploratório. As análises foram realizadas por meio do 
utilitário Aligner do WordSmith Tools 6.0 (SCOTT, 2012), doravante WST. 


Na seção seguinte, introduzimos alguns pontos teóricos que subjazem a este estudo. Em 
seguida, apresentamos a Linguística de Corpus, o corpus e os procedimentos metodológicos 
realizados. Por fim, discutimos os dados obtidos, tecemos nossas considerações finais e 
apresentamos alguns possíveis encaminhamentos futuros. 


2 Fundamentação teórica 


PLNM é uma área acadêmico-profissional vinculada à Linguística Aplicada que, grosso 
modo, se ocupa da pesquisa e do ensino-aprendizagem de português para/por pessoas 
não lusófonas. Essa área se desdobra em diferentes subáreas, dentre elas, o PLAc (LISBOA, 
2021b). Sumariamente, PLAc é uma área voltada à pesquisa e ao ensino-aprendizagem da 
língua portuguesa para/por (imigrantes de crise, isto é, por pessoas não lusófonas, recém 
imigradas em países de língua majoritária portuguesa, que se encontram em vulnerabilidade 
socioeconômica e emocional em virtude do deslocamento, em geral forçado, a que foram 
submetidas (LOPEZ; DINIZ, 2018; OLIVEIRA, 2019; SILVA; COSTA, 2020). 


No escopo de PLAc, o conceito de língua de acolhimento é central, inclusive funcionando 
como delimitador da própria área e de suas esferas de atuação. Esse conceito, que começou a 
ser popularizado no início do século XXI em Portugal (GROSSO, 2010; OLIVEIRA, 2019), refere- 
se a uma língua que não é materna para o aprendente. Seu uso é majoritário na sociedade de 
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imigração e “vinculado à urgente necessidade de participação social dos recém-chegados e 
à vivência de uma nova cultura para que, consequentemente, possam atuar efetivamente na 
sociedade e em suas organizações (SOARES; TIRLONI, 2019, p. 83). Em vista disso, este é um 
conceito muito próximo daquele de segunda língua, mas ambos possuem traços conceituais 
que nos permitem diferenciá-los. Uma discussão mais aprofundada desses conceitos e de 
suas fronteiras conceituais foi desenvolvida por Lisboa (2021b). 


Sob o prisma da Terminologia, língua de acolhimento e Português como Língua de 
Acolhimento são concebidos como unidades fraseológicas especializadas (UFES). Para 
compreender o que entendemos por UFEs, vale retomar o que são unidades terminológicas 
(UTs). Em síntese, UTs são signos que representam nódulos no sistema conceitual de uma 
área de especialidade, veiculando conceitos, processos, propriedades, técnicas etc., basilares 
para a área da qual fazem parte (REY, 1995). Quando assumem a forma de signos linguísticos, 
as UTs podem ser compostas por um só item lexical ou podem ser agrupamentos lexicais 
sintagmáticos de valor terminológico, o que designamos como UFESs*. 


Como mencionado na seção introdutória, em pesquisas anteriores, a partir de corpora 
especializados monolíngues (português), voltamo-nos a análises de UFEs designativas de área, 
subáreas e de conceitos de língua do PLNM, e constatamos que a variação formal e conceitual 
é característica marcante da terminologia analisada. Todavia, como essas pesquisas foram 
realizadas em corpora monolíngues, alguns questionamentos surgiram: como essas UFEs são 
traduzidas? Há padronização nessas traduções? Haveria mais de um equivalente tradutório? 
Se sim, haveria alguma forma mais recorrente e estável? 


Tendo em vista esses questionamentos, focalizamos neste estudo as UFEs língua de 
acolhimento e Português como Língua de Acolhimento e, por conseguinte, o acrônimo PLAc, 
partindo da hipótese de que, assim como em português, não haveria padronização terminológica 
nas traduções para o inglês, haja vista que a alta variação é um traço característico das 
utilizações terminológicas no PLNM e, portanto, no PLAc. A metodologia utilizada para realizar 
as análises está descrita na seção seguinte. 


3 É relevante evidenciar que as designações do que chamamos de UTs e de UFEs variam na literatura da área. As UTs são também designadas 
como termos, lexias especializadas, signos terminológicos, unidades lexicais terminológicas/especializadas etc. Por sua vez, o que chamamos de 
UFEs também pode ser encontrado sob as seguintes designações: termos sintagmáticos, sintagmas terminológicos, unidades terminológicas/ 
especializadas poliléxicas, fraseologismos terminológicos/especializados, colocações especializadas, dentre outras. Em alguns casos, as 
diferentes designações pressupõem diferentes conceitualizações, isto é, a variação formal acontece em função da (ou para marcar a) variação 
conceitual, mas, em outros casos, as diferentes designações não necessariamente representam diferentes conceitualizações. Devido à 
limitação de espaço, optamos por apenas assinalar essa variação, mas não nos ocuparemos dessa discussão neste capítulo. 
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3 Metodologia 


A Linguística de Corpus (doravante LC) foi utilizada neste estudo como metodologia, 
principalmente por facilitar a organização dos dados e, por conseguinte, agilizar a observação 
simultânea das UFEs-alvo e de suas respectivas traduções em seus contextos de ocorrência. 
Em síntese, a LC se constitui como uma metodologia/abordagem” de análise e descrição 
linguística, realizadas com auxílio computacional e com base em corpora. As pesquisas em 
LC privilegiam a empiricidade, a replicabilidade, a utilização de ferramentas computacionais e 
a análise linguística em abrangentes quantidades de textos autênticos (BERBER SARDINHA, 
2004). 


Em LC, corpus é concebido como uma coletânea de textos, necessariamente em formato 
eletrônico, compilados e organizados segundo critérios ditados pelo objetivo de pesquisa a 
que se destina (TAGNIN, 2013, p. 29). Como estão intimamente vinculados aos objetivos da 
pesquisa, há diferentes tipos de corpora, dentre eles, os corpora paralelos. Grosso modo, um 
corpus paralelo (unidirecional) compreende dois subcorpora, um composto por textos originais 
e outro composto por traduções desses mesmos textos, sendo que sua maior vantagem "reside 
justamente no aproveitamento da sua disposição em paralelo”, que possibilita pesquisar 
originais e tradução em simultâneo (FRANKENBERG-GARCIA, 2008, p. 118). 


Sendo assim, nosso corpus de análise também é composto por dois subcorpora, um de 
resumos e palavras-chave de dissertações e teses em português e outro composto pelas 
respectivas traduções em língua inglesa. O subcorpus em português é oriundo de um estudo 
bibliométrico realizado anteriormente (LISBOA et al., 2021), em que analisamos dissertações e 
teses da área de PLAc disponibilizadas na Biblioteca Digital Brasileira de Teses e Dissertações 
(BDTD), obtidas por meio da expressão de busca língua de acolhimento”. No estudo mencionado, 
com base nos metadados, resumos e palavras-chave, apresentamos um panorama quali- 
quantitativo da área de PLAc com base nas pesquisas obtidas. Todavia, nossas análises não se 
restringiram à terminologia e aos possíveis equivalentes tradutórios utilizados nesses arquivos. 


A partir das tabelas” de análise construídas no estudo supracitado, selecionamos os resumos 
e palavras-chave para compor o subcorpus em português. Para a construção do subcorpus em 
inglês, retornamos aos documentos obtidos na pesquisa anterior e compilamos as traduções 
dos resumos e palavras-chave presentes nessas dissertações e teses. 


4 Discussões sobre o estatuto da LC estão presentes desde os primeiros manuais publicados. Seria ela uma área, uma teoria, uma abordagem 
ou uma metodologia? Devido às limitações de espaço e ao escopo deste capítulo, não entramos nessa discussão neste texto, apenas 
sinalizamos que, assim como nós, grande parte dos pesquisadores a consideram como uma metodologia (quando utilizada somente como 
um instrumental para análise, obtenção ou testagem de dados) ou abordagem (quando utilizada como perspectiva de estudo da língua que 
parte de princípios específicos, como os de probabilidade, padronização e não aleatoriedade da variação linguística). Para um breve panorama 
da discussão sobre o estatuto da LC, ver Shepherd (2009) e Parodi (2010). 


5 Essa tabela auxiliou não somente na compilação dos subcorpora, mas também na criação dos códigos de nomeação dos arquivos, pois 
todos os metadados das dissertações e teses estavam minuciosamente detalhados. 
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Sumariamente, este é um corpus paralelo bilingue (português-inglês) unidirecional, composto 
por resumos e palavras-chave de 12 dissertações e 6 teses da área de PLAc disponibilizadas na 
BDTD, defendidas em 8 instituições de ensino superior entre os anos de 2016 e 2020. O subcorpus 
em português possui 6.83/ tokens e 1./15 types, ao passo que a dimensão do subcorpus em 
inglês é de 6.638 tokens e 1.479 types. 


Em síntese, os procedimentos metodológicos realizados foram os seguintes: 


e Formulação dos códigosº de nomeação, tendo em vista facilitar a identificação e padronizar 
a nomeação dos arquivos de ambos os subcorpora; 


e Organização” e atribuição de códigos aos arquivos do subcorpus em português; 

e Compilação e atribuição de códigos aos arquivos do subcorpus em inglês; 

e Conversão da codificação dos arquivos por meio do utilitário Text Converter do WST*; 
e Alinhamento paralelo (por períodos) de cada arquivo no utilitário Aligner? do WST; 


e Análise e tabelamento dos dados, gerando uma tabela por arquivo. 


4 Resultados e discussão 


Antes de passarmos à análise das traduções, evidenciamos que em um dos arquivos não 
houve ocorrências das UFEs ou acrônimo-alvo no resumo ou nas palavras-chave. Além disso, 
é importante fazer alguns apontamentos sobre a variação formal identificada em ambos os 
subcorpora. Em relação à UFE língua de acolhimento, identificamos no subcorpus em português 
variação entre letras iniciais maiúsculas e minúsculas, prevalecendo o uso de minúsculas. 
No que tange à UFE Português como Língua de Acolhimento, além da variação entre iniciais 
maiúsculas e minúsculas, identificamos a alternância na utilização do advérbio como, mas 
observamos que a tendência é a utilização de letras iniciais maiúsculas e do advérbio. Essas 
observações também foram verificadas por Lisboa (2021b). 


6 As informações contidas nesses códigos são, respectivamente, língua (PT/EN), ano de defesa, sigla/abreviação da instituição de ensino, 
especificação do documento (dissertação ou tese) e último sobrenome do autor. O ordenamento das informações foi pensado visando 
a possibilitar, em pesquisas futuras, a identificação de possíveis padrões tradutórios vinculados principalmente aos anos de defesa ou a 
determinadas instituições de ensino. 


7 Nas etapas de organização do subcorpus em português e de compilação do subcorpus em inglês, cada resumo e grupo de palavras-chave 
foi copiado e colado no Bloco de Notas do Windows para que fosse salvo em .txt, formato mais profícuo para processamento pela suíte de 
análise lexical escolhida. 


8 O Text Converter é um utilitário que permite a conversão em massa de arquivos em diversas codificações para a codificação Unicode. Esse 
procedimento é necessário porque o WST geralmente apresenta erros de leitura quando os arquivos são processados em outra codificação 
que não a Unicode. 


9 O utilitário Aligner foi utilizado por fazer o alinhamento paralelo por períodos de forma semiautomática, viabilizando a análise simultânea 
de originais e traduções e, por conseguinte, facilitando a identificação das UFEs e acrônimo-alvo e de suas respectivas traduções. 
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Nos equivalentes tradutórios no subcorpus em inglês, também observamos a variação formal 
quanto à utilização de iniciais maiúsculas e minúsculas, bem como no uso da conjunção as e 
do artigo a (ex. Portuguese (as (a)) Host Language), casos similares às variações identificadas 
em português. Além disso, especificamente no equivalente host language, observamos que, 
por vezes, ele é grafado entre aspas, mas essas utilizações não são tão representativas em 


nosso corpus de estudo (4 ocorrências em apenas 2 arquivos). 


Visando a simplificar a apresentação e discussão dos resultados, optamos por apenas 
assinalar as variações formais referentes à utilização de iniciais maiúsculas e minúsculas e 
de aspas, mas desconsiderá-las nas tabelas a seguir. Dito isso, iniciemos pelas traduções de 
Português (como) Língua de Acolhimento. Em nosso corpus de estudo, identificamos três 
possíveis traduções, sendo que duas delas são mais frequentes e uma ocorre em apenas um 
arquivo. Também identificamos um caso em que a UFE em questão não foi traduzida. Esses 
dados estão apresentados na Tabela 1. 


Tabela 1: Traduções de Português (como) Língua de Acolhimento. 


UNIDADE-FONTE TRADUÇÕES FREQUÊNCIA ARQUIVOS 
Portuguese (as a) Welcoming Language To Bo 


Português (como) Língua de Portuguese (as (a)) Host(ing) Language "r. 


Acolhimento Portuguese as a Shelter Language 


Fonte: Elaborada pelo autor. 


Portuguese (as a) Welcoming Language ocorreu como tradução da UFE em questão 17 
vezes em 8 arquivos distintos. Percebemos a preferência pela grafia utilizando asa, haja vista 
que Portuguese Welcoming Language ocorreu duas vezes, mas em apenas um arquivo. Por 
sua vez, Portuguese (as (a)) Host(ing) Language ocorreu também 17 vezes, mas em 7 arquivos 
distintos. Quanto às preferências de grafia, observamos que Portuguese as a Host Language 
foi a mais recorrente (10 vezes em 4 arquivos), seguida de Portuguese Host Language (3 vezes 
em 2 arquivos). As demais variações (Portuguese as Host Language e Portuguese as a Hosting 
Language) ocorreram em apenas um arquivo cada". Em nosso corpus, identificamos também 
Portuguese as a Shelter Language, ocorrendo duas vezes em um único arquivo. 


Em relação às traduções de língua de acolhimento, identificamos quatro possibilidades 
tradutórias, sendo que host(ing) language foi a mais recorrente (/ vezes em 4 arquivos). Além 
disso, observamos que o segundo caso mais recorrente foi a não tradução da UFE-fonte (2 
vezes em 2 arquivos). Esses dados estão apresentados na Tabela 2, a seguir. 


10 O total de arquivos apresentados nessa discussão difere do total de arquivos exibido na Tabela 1, pois em um mesmo arquivo identificamos 
duas variantes sendo utilizadas (Portuguese as a Host Language e Portuguese Host Language). 
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Tabela 2: Traduções de língua de acolhimento. 


UNIDADE-FONTE TRADUÇÕES FREQUÊNCIA ARQUIVOS 


ingua de acolhimento 


Fonte: Elaborada pelo autor. 


No que se refere a host(ing) language, a tendência é a grafia como host language, visto 
que hosting language ocorre 2 vezes, mas em apenas um arquivo. As demais traduções, PWLg 
(em referência à Portuguese Welcoming Language), welcoming language e Portuguese as a 
Shelter Language, ocorreram como tradução da UFE em questão em apenas um arquivo cada. 


Comparando as informações apresentadas nas Tabelas 1 e 2, é possível perceber que 
ao traduzir Português (como) Língua de Acolhimento, geralmente opta-se por UFEs com 
os constituintes welcoming e host, mas no caso das traduções de língua de acolhimento, 
o constituinte welcoming não é comum, pois a tendência é a utilização de host. Portanto, 
duas UFEs que possuem constituintes idênticos em português (língua de acolhimento) são 
traduzidas com diferentes constituintes a depender da UFE-fonte. 


Nosso corpus também nos permitiu analisar as traduções de PLAc, utilizado em português 
como acrônimo de Português como Língua de Acolhimento. Os dados referentes a essas 
traduções estão apresentados na Tabela 3. 


Tabela 3: Traduções de PLAc. 


UNIDADE-FONTE TRADUÇÕES FREQUÊNCIA ARQUIVOS 


RR 
PLAc 
W 


host language 


Portuguese teaching for immigrants and refugees 


Portuguese for forced immigrants 


L 
Portuguese as a Shelter Language 
L 


Fonte: Elaborada pelo autor. 
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Como é possível observar na tabela apresentada, o mais comum é a não tradução de PLAc, 
observada por meio da supressão do acrônimo (12 vezes em 9 arquivos) ou pela utilização 
do mesmo acrônimo-fonte na tradução (5 vezes em 4 arquivos). Os dois outros casos mais 
comuns são a não utilização de um acrônimo/sigla/abreviatura na tradução, optando-se por 
apresentar a UFE-tradução por extenso (Portuguese as a Welcoming Language), e a tradução 
por PHL (em referência a Portuguese as (a) Host Language). Os demais casos ocorrem em 
apenas um arquivo cada, apesar de alguns ocorrerem mais de uma vez em um mesmo arquivo. 
Os dois últimos casos apresentados na Tabela 3 nos chamaram a atenção por não serem 
especificamente UFEs, mas por se constituírem como explicitações do conceito ao qual PLAc 
faz referência (cf. Seção 2). 


Por fim, observamos alguns casos singulares. Em um dos arquivos, há a ocorrência de uma 
UFE que se constitui como uma extensão de Português como Língua de Acolhimento, a saber, 
Português como Língua de Acolhimento para Fins Acadêmicos, sendo traduzida por Portuguese 
as a Welcoming Language for Academic Purposes, e cujo acrônimo utilizado tanto em inglês 
como em português é PLAc-FA. Em outro arquivo, identificamos duas palavras-chave (língua 
portuguesa e língua de acolhimento) que foram traduzidas por uma só UFE (Portuguese as "host 
language”). Além desses casos, identificamos em um arquivo que Português (como) Língua 
de Acolhimento foi abreviado como PLA, tanto em inglês como em português, diferenciando- 
se da forma abreviada mais frequente (PLAc). 


5 Considerações finais 


Neste estudo exploratório, voltamo-nos à análise de traduções das UFEs língua de 
acolhimento, Português como Língua de Acolhimento e, por conseguinte, do acrônimo PLAc 
em um corpus paralelo bilíngue (português-inglês) unidirecional, composto por resumos e 
palavras-chave de 12 dissertações e 6 teses brasileiras vinculadas à área de PLAc. Nossa 
hipótese inicial foi confirmada. Identificamos que, assim como nas UFEs em português, há 
variações formais nas traduções, especificamente em relação à utilização de letras iniciais 
maiúsculas/minúsculas e de aspas, ao uso de conjunção e artigo (as a) e à alternância dos 
constituintes das UFEs. Não obstante, salvo algumas exceções, a variação formal referente 
à alternância de unidades constituintes não foi identificada em um mesmo arquivo, mas na 
comparação entre arquivos distintos. Portanto, especificamente no caso de alternância de 
constituintes, as traduções em um mesmo arquivo são geralmente padronizadas. 


A tendência observada neste corpus de estudo é que Português (como) Lingua de 
Acolhimento seja traduzido por Portuguese as a Welcoming Language (equivalente mais 
recorrente) ou por Portuguese as a Host Language. Por sua vez, a UFE língua de acolhimento 
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tende a ser traduzida por host language (caso mais recorrente) ou não é traduzida em inglês. 
Por fim, PLAc tende a não ser traduzido (suprime-se o acrônimo ou utiliza-se o mesmo acrônimo 
utilizado em português); em outros casos menos frequentes, opta-se por apresentar por extenso 
a UFE a que PLAc se refere ou explicitar o conceito ao qual esse acrônimo está vinculado, sem 
necessariamente fazer uso de uma UFE específica no texto traduzido. 


Alguns dos possíveis encaminhamentos futuros deste estudo são os seguintes: (i) analisar a 
presença de padrões tradutórios vinculados aos anos de defesa ou a determinadas instituições 
de ensino"; (ii) compilar e analisar um corpus em inglês, composto por textos especializados 
em língua de acolhimento, para verificar se essas mesmas variações são encontradas e se 
há algum tipo de padronização; (iii) analisar a terminologia em língua inglesa utilizada por 
organizações ou agências oficiais voltadas ao tema de migração e refúgio (como a ACNUR!9, 
tendo em vista verificar se as traduções aqui identificadas são utilizadas por esses órgãos ou 
se há um outro tipo de padrão terminológico que poderia ser utilizado como equivalente das 
UFEs analisadas neste estudo. 


À guisa de conclusão, evidenciamos a proficuidade da LC como metodologia para estudos 
de descrição linguística, principalmente por facilitar a organização e observação de dados, 
agilizando o processo de análise, inclusive em estudos de caráter mais manual como o aqui 
apresentado. Além disso, este estudo demonstra que é possível reutilizar/reconstruir, ou 
reciclar (FROMM; YAMAMOTO, 2021), corpora originalmente compilados em pesquisas 
anteriores, desde que o (re)desenho atenda aos objetivos da nova pesquisa. 
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1 Introdução 


Este estudo exploratório é parte de uma pesquisa de doutorado em andamento. Neste 
capítulo, objetivamos, a partir da identificação de palavras-chave, descrever as escolhas 
lexicogramaticais atitudinais utilizadas para expressar avaliações em comentários escritos 
de espectadores do episódio Xerecou: empoderamento feminino na linguagem, publicado 
em agosto de 2021, pelo canal GNT, no YouTube. 


O tema movimentou a imprensa, acompanhando uma discussão na mídia nacional sobre 
a utilização da palavra xerecou pela atleta Karen Jonz, skatista tetracampeã e comentarista de 
skate das Olimpíadas de Tóquio, durante a transmissão de uma prova, ao vivo, em um canal de 
TV. Ao narrar a participação de uma competidora e relatar a queda da atleta após uma manobra, 
a comentarista utilizou a palavra xerecou para descrever um choque contra o corrimão durante 
um movimento executado de forma inadequada pela skatista olímpica. Ao narrar a situação, 
Karen disse: Xerecou no campeonato!”. 


A palavra xerecou, então, tornou-se uma das mais citadas, apareceu nos Trending Topics 
do Twitter e gerou muitos memes” e comentários diversos. De acordo com Barton e Lee (2015), 
falar sobre a língua e linguagem se tornou uma prática comum em nosso mundo social, cada 
vez mais mediado por textos. 


As novas mídias também proporcionam novas oportunidades e espaços para que os atores 
sociais reflitam sobre questões linguísticas, especialmente na forma escrita. [...] os participantes 
da web costumam falar sobre a língua e seu aprendizado; as pessoas avaliam o conhecimento de 
sua própria língua e da dos outros; [...] eles não precisam ser usuários perfeitos de determinada 


língua para avaliá-la e para saber como ela deve ou não ser utilizada (BARTON; LEE, 2015, p. 162). 


Karen Jonz também foi convidada a participar de programas televisivos e podcasts e o fato 
virou notícia” em diversos veículos de comunicação, que destacaram a utilização da palavra 
xerecou e de outras expressões usadas por ela. 


A utilização desse neologismo” também suscitou debates sobre o uso de determinadas 
palavras por mulheres, sobre a adequação da linguagem ao contexto etc. Os comentários de 
Karen, além de terem sido considerados pela imprensa, de maneira geral, como engraçados 
e espontâneos, também promoveram uma reflexão sobre o constrangimento em relação ao 
uso de palavras relacionadas ao órgão genital feminino” e à utilização de palavras tabus. 


2 Disponível em: https://twittercom/search?f=top&q=%272xerecou%22&src=typed. Acesso em: 14 jan. 2022. 

3 Disponível em: hitps:/Avww.uol.com.br/esporte/ultimas-noticias/2021/09/26/karen-jonz-xerecou-altas-horas.htm. Acesso em: 14 jan. 2022. 
4 Entendemos por neologismos palavras que não estejam dicionarizadas e que ainda não integram o vocabulário da língua portuguesa — VOLP. 
5 Disponível em: https://bit.ly/30c6MP I. Acesso em: 14 jan. 2022. 
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O vídeoº escolhido para este trabalho é um produto do programa Saia Justa”, do canal de 
televisão por assinatura GNT’. O programa original é transmitido integralmente na televisão 
fechada e, depois, é disponibilizado na internet, editado e com tamanho reduzido, sendo 
considerado pela emissora uma seleção dos melhores momentos do programa. Esse produto 
é intitulado Mini Saia Justa. Nele, são apresentados recortes das falas das apresentadoras e 
da pessoa entrevistada. Tal programa está hospedado na plataforma de vídeos YouTube, no 
canal da emissora. Importante destacar que o canal da emissora no YouTube existe desde julho 
de 2010, possui 1,92 milhões de inscritos e seus vídeos contam com mais de 500 milhões de 
visualizações. 


Cabe mencionar que o YouTube é um site que permite que os seus usuários compartilhem 
vídeos, disponibilizando-os na internet. Nesse ambiente virtual, também é possível interagir 
com os autores/divulgadores por meio de comentários escritos, publicados na página do vídeo. 
Como ressaltam Barton e Lee (2015, p. 60), o YouTube é visto como site de rede social, devido às 
relações únicas desenvolvidas entre quem sobe o vídeo e seus espectadores. Portanto, segundo 
os autores, o YouTube é rico em espaços de escrita, pois além das legendas e anotações no 
vídeo, a seção de comentário é o principal espaço de escrita interativa do site [...] os comentários 


podem ser avaliados pelos usuários (votar a favor ou contra). 


Barton e Lee (2015, p. 62) citam, ainda, a popularidade desse espaço virtual, o qual abrange 
diferentes modos de construção de significados e diferentes dinâmicas de interação. Destacam 
que o YouTube se baseia no aspecto visual e inclui bastante interação com estranhos”. Ademais, 
os pesquisadores pontuam que o YouTube tem um perfil etário amplo entre os usuários da rede 
e possui funções mais abrangentes que as redes sociais. 


Por isso, devido às suas características particulares, um estudo em corpus de comentários 
de um vídeo do YouTube é produtivo, pois possibilita a descrição e o estudo da inter-relação 
entre as práticas de produção de texto e os espaços de produção escrita em novas mídias 
digitais, em que as pessoas empregam a linguagem on-line quando participam de sites como o 
YouTube, e através dela expressam suas opiniões, avaliações e atitudes sobre temas variados. 


Os usuários dessa plataforma precisam articular suas opiniões, sentimentos e/ou atitudes 
em relação a algo ou alguém para interagir a partir do vídeo publicado. Charaudeau (2006, p. 176) 
explica que o gênero comentário está para a argumentação, uma vez que ele problematiza 
os acontecimentos, constrói hipóteses, desenvolve teses, traz provas, impõem conclusão. O 


6 Disponível em: hitps://youtu.be/0)wED9VRABY. Acesso em: 14 jan. 2022. 


7 O programa Saia Justa é apresentado e mediado por Astrid Fontenelle e vai ao ar toda semana. Justamente com Fontenelle, as apresentadoras 
Mônica Martelli, Pitty e Gaby Amarantos promovem conversas, debates e discussões sobre temas diversos com pessoas convidadas, sempre 
de uma perspectiva que destaca diferentes experiências e vozes femininas. 


8 Endereço eletrônico da GNT: hitps://gnt.globo.com/. Acesso em: 14 jan. 2022. 
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comentário, segundo o pesquisador, põe o leitor em questão: exige uma atividade intelectiva, 
um trabalho de raciocínio, uma tomada de posição contra ou a favor, e desta atividade não há 
ninguém, no fim da troca, que saia incólume (o comentário é histérico)". 


Outro aspecto a ser destacado sobre o espaço de escrita comentários no YouTube, segundo 
Barton e Lee (2015, p. 119), é o fato de que esse espaço de escrita licencia a produção conjunta 
de posições sobre vários aspectos do vídeo publicado. Alguns podem se alinhar [...], enquanto 
outros podem assumir uma postura de oposição. Às vezes, esses comentários podem se referir 
diretamente ao conteúdo do vídeo enviado; em outros momentos, os comentários podem 
mudar temas e iniciar novos tópicos de discussão entre si”. 


Assim, coadunando com Barton e Lee (2015, p. 65), os usuários comuns da internet têm 
um poder sem precedentes de escolha e criatividade”. Por isso, conforme as palavras dos 
pesquisadores, parece razoável dar uma olhada nas atividades e práticas sociais reais que 
cercam essa escrita. 


Outras possibilidades a serem investigadas através do corpus aqui proposto, para além 
da AVALIATIVIDADE e de neologismos, são a utilização de emoticon; as regras de netiqueta 
utilizadas pelos comentaristas dos vídeos, como, por exemplo, o uso de letras maiúsculas; a 
linguagem ofensiva e agressiva em mensagens insultuosas e hostis, que geralmente violam 
a polidez linguística; o uso de abreviações, de repetições, dentre outras características da 
linguagem escrita on-line. 


Portanto, investigar a linguagem específica da internet através de comentários escritos é 
viável, uma vez que usuários da língua on-line também desenvolveram seu próprio repertório 
e convenções linguísticas para a língua que empregam on-line, conforme destacam Barton e 
Lee (2015, p. 149). 


Acreditamos que descrever a utilização e refletir sobre a criação de novas palavras e sobre 
seus contextos de utilização é relevante. Como destaca Fairclough (2001, p. 246), novas palavras 
geram novos itens lexicais (HALLIDAY, 1966). Assim, parafraseando Fairclough, a criação de itens 
lexicais permite conceber as perspectivas particulares dos domínios da experiência segundo 
uma visão teórica, científica, cultural ou ideológica mais abrangente. Portanto, investigar a 
utilização do termo xerecou em um corpus de comentários do YouTube permite refletir sobre 
a utilização do português brasileiro na atualidade. 


Este é um trabalho de base descritiva e que leva em consideração os usos que se faz da 
linguagem, especificamente a linguagem avaliativa, filiando-se à Linguística Sistêmico-Funcional 
(LSF), à Avaliatividade e à Linguística de Corpus (LC). Utilizamos o programa WordSmith Tools 
6.0 (SCOTT, 2012), doravante WST, para o processamento e a análise dos dados. 
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Considerando o objetivo aqui proposto, fizemos um recorte para trabalharmos com a 
metafunção interpessoal da linguagem, especificamente com o sistema de AVALIATIVIDADE, 
proposto por Martin e White (2005). Este estudo é pautado no sistema de ATITUDE, a partir da 
perspectiva corpus driven, isto é, guiada por corpus. 


2 Os estudos descritivos e a linguistica 
sistêmico-funcional 


Este trabalho seguiu o pressuposto apresentado por Perini (2006, p. 36), de que o objetivo 
do linguista não se resume à apresentação de dados; é preciso observar atentamente a 
descrição da estrutura da lingua, o conjunto de regras, elementos, classes e princípios que 
governam as associações dos diversos elementos da língua e seus significados. Coadunando 
com Perini (2008, p. 57), um dos principais objetivos da linguística é descrever as línguas naturais, 
prever a aceitabilidade e a inaceitabilidade de sequências formais e de suas associações e 
representações semânticas . Assim, estudos como este auxiliam na compreensão de fenômenos 
linguísticos no português brasileiro em espaços de escrita on-line. 


Aqui, nos interessa relatar o potencial criativo linguístico e descrever a forma como o item 
lexical xereca, o qual classifica-se, segundo a gramática normativa, como um substantivo, 
passou a ser utilizado como um verbo de primeira conjugação, ou seja, terminado em AR- 
xerecar, mais especificamente, flexionado no pretérito perfeito, na terceira pessoa do singular 
xerecou, criando um neologismo. 


Diante de tal fato linguístico, a utilização do item lexical xereca nos interessa, uma vez 
que tem sido sistêmica a criação de novos itens baseados na mudança de classe gramatical, 
passando de um nome a um verbo. Esse tipo de movimento foi descrito no trabalho de Bispo 
(2019). Segundo a pesquisa, o item sextou, o qual deriva do substantivo sexta-feira, é empregado 
em redes sociais. Gama (2017) explica o neologismo bombar, derivado da palavra bomba, que 
também é de base nominal e dá origem a outras formas como bombou e bombando e foram 
utilizados em um jornal popular. 


A LSF preocupa-se em compreender as funções da linguagem, por isso é uma teoria de 
base funcionalista que considera o funcionamento e o uso da língua. Assim, nos amparamos 
na gramática Sistêmico-Funcional (GSF), proposta por Halliday (1994) e Halliday e Matthissien 
(2004), para realizar a análise apresentada. 


Logo, o estudo aqui proposto, embasado na LSF, concorda que o texto e o contexto devem 
ser levados em consideração e que as análises linguísticas devem ser concebidas através de 
uma interpretação descritiva, baseada no uso da lingua. 
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Halliday defende a ideia de que a linguagem e seu desenvolvimento, enquanto sistema 
semiótico, devem ser analisados em contextos de uso, por isso, propõe uma análise 
“sociofuncional” da linguagem, apontando três Metafunções que aprofundam as relações entre 
sistema linguístico e as necessidades de comunicação dos indivíduos. São elas: a Ideacional, 
a Interpessoal e a Textual. Essa organização possibilita a compreensão das funções básicas 
da linguagem e a multiplicidade de usos que o ser humano faz dela. 


Este estudo centrou-se na Metafunção Interpessoal, especificamente, no subsistema 
de Atitude, a fim de identificar, descrever e analisar os usos lexicogramaticais presentes em 
comentários escritos, a partir da lista de palavras-chave, à luz do sistema de AVALIATIVIDADE, 
sugerido por Martin e White (2005). 


2.1 A AVALIATIVIDADE e o Subsistema de 
Atitude 


De acordo com Vian Jr. (2010, p. 22), o sistema de AVALIATIVIDADE pode ser caracterizado 
como interpessoal no nível da semântica do discurso, que está articulado, simultaneamente, 
a outros dois sistemas: Negação e Envolvimento. 


O sistema de AVALIATIVIDADE é formado por três grandes subsistemas: a Atitude — foco 
deste trabalho, a Gradação e o Engajamento. Assim, esse sistema está relacionado a todo 
o potencial que a língua oferece para realizarmos significados avaliativos. Logo, estudar a 
AVALIATIVIDADE em corpus de comentários escritos é relevante, pois esse gênero possibilita 
o uso de expressões, pontos de vista sobre determinado conteúdo e/ou pessoa que está sendo 
exposta ou produto publicizado, por exemplo. 


O Subsistema de Atitude é um componente que possibilita que o falante/escritor faça 
avaliações sobre entidades, estado de coisas e acontecimentos, negativa ou positivamente. 
Esse subsistema subdivide-se em três campos semânticos: o Afeto, responsável por expressar 
emoções; o Julgamento, responsável por representar as avaliações éticas no âmbito da 
moralidade; e a Apreciação, responsável por expressar as avaliações sobre as coisas e os 
objetos no âmbito da estética. 


3 Procedimentos metodológicos 


Este estudo exploratório foi guiado pelo corpus, isto é, pelos resultados encontrados através 
da chavicidade e da identificação das temáticas do corpus de comentários (cf. NOVODVORSKI, 
2013; BERBER SARDINHA, 2009), neste caso, focalizamos nossas análises no uso da palavra 
xerecou. 
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Ao investigar a realização das escolhas linguísticas de avaliação presentes no corpus 
de comentários, coadunando com Castilho (2010, p. 59), contribuímos para uma importante 
reflexão sobre a língua, já que, para isso, é preciso refletir e tomar conhecimento sobre os 
processos linguísticos, e, antes de tudo, é necessário descrever a língua. 


O corpus desta investigação é composto por /5 comentários, apresentando uma variedade 
lexical satisfatória aos propósitos deste trabalho. São 1.226 tokens (itens) e 567 types (formas). 
Através do corpus de comentários, foi possível encontrar inúmeras avaliações, pois esse 
tipo de escrita possibilita a interação entre diferentes espectadores que dialogam na rede 
e demonstram, por meio de suas falas", aspectos culturais e linguísticos diversos e, ainda, 
estabelecem uma relação de troca com o programa, apresentadoras e emissora responsável 
pelo canal, reafirmando a função do espaço de escrita comentários. 


A escolha do episódio para subsidiar a coleta dos comentários ocorreu por tratar-se de 
uma discussão relacionada à linguagem, especificamente sobre o uso da palavra xerecou. A 
utilização de tal vocábulo reverberou, nos comentários, avaliações sobre a situação atual das 
mulheres e aspectos ligados ao feminino na sociedade. 


Tendo em vista os atuais embates sociais em relação a temas que envolvem a mulher, a 
sexualidade feminina e a noção de feminino, não foi possível encontrar, nos comentários, material 
suficiente para traçar padrões sexistas na utilização da linguagem. Entretanto, demonstrou-se 
o apoio da audiência sobre a postura ética da entrevistada, destacando sua relevância como 
exemplo a ser seguido. 


3.1 A Linguistica de Corpus e o programa 
WWordSmith Tools 


A Linguística de Corpus (LC) surgiu nos anos 60 e é uma abordagem teórico-metodológica. 
Nas palavras de Berber Sardinha (2008), a LC possui um carácter interdisciplinar, possibilitando 
o diálogo entre áreas diversas. Ela permite a observação de manifestações linguísticas de 
diversos segmentos, em vários textos. Assim, a LC dedica-se à coleta e à exploração de corpora 
ou de conjuntos de dados linguísticos (cf. BERBER SARDINHA, 2000). 


De acordo com Novodvorski e Finatto (2014, p. 8), a LC compreende a língua como um 
sistema probabilístico de combinatórias, no qual uma unidade se define pelas associações que 
mantêm com outras unidades. Por isso, observar dados sistematizados em contextos autênticos 
de uso é de grande importância, pois permite a identificação de características peculiares aos 
corpora. Assim, descobrir e reconhecer padrões de utilização da língua é fundamental, pois 
toda teorização parte de uma observação atenta. 
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Para que este estudo exploratório fosse possível, utilizamos o programa WST. Ele é um 
pacote integrado de ferramentas, desenvolvido com o propósito de auxiliar na descrição e 
análise linguísticas em corpus. 


O WST oferece diversas ferramentas, dentre elas, Wordlist, KeyWords e Concord, que foram 
as ferramentas utilizadas neste estudo. A primeira ferramenta, talvez a mais importante, gera 
a lista de palavras e contabiliza os types e o tokens do corpus. Ela também permite ordenar a 
lista alfabeticamente ou por número de frequência e organizar agrupamentos de formas em 
um mesmo item, por exemplo, as formas xerecou e xerecaram foram agrupadas sob o lema 
xereca. 


Já a ferramenta Keywords é responsável por gerar lista de palavras que possibilitam a 
identificação de palavras-chave do texto em um corpus, através de uma comparação entre 
um corpus de estudo e um de referência, que deve ser entre 3 e 5 vezes maior que o corpus 
de estudo. 


Por último, há a ferramenta Concord. Com ela, é possível visualizar as linhas de concordância 
em que as ocorrências de determinada palavra, ou várias, estão listadas. A ferramenta também 
permite acessar os contextos de uso destas palavras. 


3.2 Coleta, organização e categorização 
dos dados 


A metodologia utilizada nesse trabalho seguiu a proposta da LC, por isso, o primeiro passo 
foi a compilação do corpus de estudo. Os primeiros procedimentos realizados para a compilação 
do corpus foram: 


|. Escolha do corpus de estudo; 


Il. Extração manual dos comentários por meio de seleção e transferência dos segmentos 
para arquivo de texto plano (txt), legível pela ferramenta WST. 


Il. Armazenamento dos arquivos em .txt, limpeza e organização do corpus de comentários. 


Em seguida, depois do trabalho manual realizado para possibilitar a leitura dos comentários 
pelo programa WST, partimos para a etapa em que foi gerada a WordList, tanto para o corpus 
de estudo quanto para o de referência”. Sendo assim, demos continuidade às seguintes etapas: 


IV. Geração das listas de palavras tanto do corpus de estudo quanto do de referência, por 
meio da ferramenta WordList; 


V. Geração da lista de palavras-chave. 


9 Utilizei como corpus de referência entrevistas que foram parte do corpus da minha dissertação de mestrado (MARRA, 2017). 
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Após a criação da lista de frequência de palavras, foi possível identificar algumas 
características do corpus através da ferramenta Statistics. Com as listas, também foi possível 
criar a lista de palavras-chave. Em seguida, identificamos e analisamos a única palavra-chave 
encontrada, Karen”, nome da entrevistada do programa. 


3.3 O corpus de estudo e o corpus de 
referência 


O corpus de estudo é composto por 75 comentários", que se caracterizam por apresentar 
uma linguagem informal, apresentando, muitas vezes, abreviações, tabuísmos e gírias. Foi 
criada uma etiqueta para identificação do início de cada comentário (C -), assim, sempre que 
se inicia um novo comentário, foi acrescentada essa marcação. Também optamos por retirar 
os nomes dos comentaristas. 


O tamanho do corpus é pequeno, possui 1.226 tokens e 567 types e a riqueza lexical (type/ 
token ratio) é de 46,25. As informações sobre o design do corpus de estudo foram sintetizadas 
e estão apresentadas no Quadro 1. 


Quadro 1: O corpus de estudo. 


Tamanho Pequeno (menos de 3.000 de palavras) 


Comentários de usuários da plataforma YouTube 


Nível de codificação Com etiqueta 


Fonte: Quadro adaptado de Marra (2017). 


O corpus de referência é composto por 3 entrevistas da Revista da Cultura, da cidade de 
São Paulo, publicadas em 2014. Os assuntos abordados nas entrevistas versam sobre literatura, 
música, teatro, cinema etc. As entrevistas apresentam introdução sobre o entrevistado antes 
das perguntas estilo pingue-pongue e mantêm linguagem informal, uma vez que aparecem 
tabuísmos e gírias. O corpus de referência possui tamanho 5 vezes maior que o corpus de 
estudo, apresentando 7.511 tokens e 2105 types. 


10 Inicialmente, o corpus apresentava 105 comentários, porém, com a limpeza, foram excluídos comentários duplicados e desconexos com 
o vídeo ou tema ali tratado. E relevante destacar que optamos por manter os emoticons presentes nos comentários, pois eles ajudam a 
recuperar o contexto e a interpretar o comentário. 
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Após a organização dos corpora de estudo e referência, foi extraída a lista de palavras- 
chave. O corpus nos guiou para a palavra: Karen”, o nome da convidada do programa. A partir 
deste resultado, iniciamos a análise das linhas de concordância com a palavra-chave, a fim de 
identificar avaliações e, assim, aplicar os conceitos do sistema de AVALIATIVIDADE. Foram 
identificadas 12 linhas de concordância, como mostra a Figura 1. 


Figura 1: Linhas de concordância do nódulo “Karen”. 


FÉ Concord — 0O X 

File Edit View (Compute Settings Windows Help 
N Concordance [set Word | sen Sen mm m m File Date | % | 
J | Ka | 190 1527 018 0 18 Comentários 2021/novi23 14% 
2 muito essa entrevista C - A Karen é incrivel... amo demais C 404 3750 037 O 37 Comentários 2021/nov'23 31% 
3| CAUSA DO FEMINISMO C - A Karen é incrivel... amo demais C 1,052 7264 097 0 97 Comentários 2021/nov/i23 79% 
4| Sempre me acabo de rir com a Karen, menina leve, do bem... C 105 973 010 O 10 Comentários 2021/novi23 8% 

| *'do bem... C - Coisa mais linda a Karen bombando, ficando cada 116 1057 011 O 11 Comentários 2021/novi23 9% 
6 C - FOLLOW MEO 990 C - Karen $8 C - Pitty aqui no Rio 720 5435 0 66 0 66 Comentários 2021/nov'23 56% 

| É Eles xerecam v=rw C- Karen maravilhosa! Y C - 1,083 7410 0 10 0 10 Comentários 2021/nov/23 82% 

| 8 kkkkkěë aver C -KAREN JONZ EU TE 499 44 36 0 46 O 46 Comentários 2021/nov/23 39% 
9 é incrivel... amo demais C - Karen é foda 9 C - Karen 410 3773 038 O 38 Comentários 2021/novi23 32% 
10 C - Com certeza kkkkk C - Karen é incrível, que mulher. 39 091 0 4% O 4% Comentários 2021/novi23 3% 
11| demais C - Karen é foda O C - Karen maravilhosa! € C - Pitty 416 3796 0 38 O 38 Comentários 2021/nov/23 32% 
12 AMEI os looks e o cabelo da KAREN. © C - Definitivamente 7615710 0 70 O 70 Comentários 2021/nov/i23 59% 


| concordance “collocates plot patterns clusters timeline filenames sourcetex notes 


Ee 


12 entries Row 1 desse assunto não ser tabu! À Karen é incríveeel Y C - Defin 


Fonte: Concord. 


Observamos que, das 12 linhas de concordância com a palavra Karen; todas contêm 
avaliações sobre a skatista, seja sobre sua pessoa ou sobre sua aparência, fato que pode ser 
explicado devido ao aspecto visual do YouTube. 


Outro item lexical que foi investigado foi a palavra xerecou, por ser um dos temas centrais 
do episódio e também por entendermos que esta palavra exemplifica a criatividade lexical, 
demonstrando uma nova manifestação linguística do ponto de vista gramatical, uma vez que 
xerecou não integra os dicionários e vocabulários do português brasileiro. É um item criado a 
partir do substantivo xereca e foi utilizado como verbo, sendo flexionado no pretérito perfeito 
e obedecendo às regras de formação de palavras do português. Sendo xerecou uma unidade 
lexical criada a partir de um processo de derivação, esse neologismo" demonstra a potência 
criativa da língua, isto é, uma palavra fruto da necessidade de denominar uma nova realidade, 
corroborando Correia e Almeida (2012, p. 23) que afirmam que “os neologismos podem constituir 
palavras formalmente novas, preexistentes que adquirem um novo significado, ou, ainda, 
palavras que passam a ocorrer em registros linguísticos nos quais não costumavam ocorrer”. 


Almeida (2020), em estudo sobre o substantivo xereca, mostra que ele é um africanismo que 
se refere ao órgão genital ou sexual feminino. Ele é substantivo compreendido como tabuísmo, 
‘uma palavra de uso restrito, censurada por pudor ou por crença, sendo ainda vista como 


11 Neste trabalho, seguimos a proposta de Alain Rey (1976 apud CORREA; ALMEIDA, 2012, p. 23) e compreendemos que neologismo é uma 
unidade lexical cuja forma significante ou cuja relação significado-significante, caracterizada por um funcionamento efetivo num determinado 
modelo de comunicação, não se tinha realizado no estágio anterior do código da língua. 
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popular e jocosa. Zavaglia (2018, p. 5), em trabalho sobre tabuísmos, afirma que a palavra 
xereca é considerada grosseira, ofensiva e chula, significados esses que podem contribuir 
para o entendimento da repercussão da palavra xerecou. A Figura 2 demonstra as ocorrências 
encontradas no corpus de comentários, que corroboram o valor semântico averiguado pelos 
trabalhos citados. 


Figura 2: Linhas de concordância do nódulo xereca. 


FÉ Concord 


File Edit View Compute Settings Windows Help 


Concordance Word # Senl Sen o o e d File Date | 

quando a competid 1) | uso buceta C- 1,202 8310 0 92 0 92 Comentários 2021/nov/23 
E En perene v T ECHA que vcs, mulheres 1,088 7510 084 O 84 Comentários 2021/nov/23 
pra obter BENEFICIOS C - "Xereca” s. f. genitália feminina. 1,097 7671 084 O 84 Comentários 2021/nov/23 

® C - Eu xereco Tu xerecas Ela xereca Nós xerecamos Vós 1,074 7450 0 82 O 82 Comentários 2021/nov/23 
xerecamos Vós xerecais Eles xerecam V=rw C- Karen 1,080 7410 0 10 O 10 Comentários 2021/nov/23 

C - Pitty pontuo bem. ® C - Eu xereco Tu xerecas Ela xereca 1,070 7410 010 O 10 Comentários 2021/nov/23 
uma parte intima no ferro falar xerecou”. C- Minha avó materna 466 43 10 0 10 O 10 Comentários 2021/nov/23 
tempo por causa da música xerecard é só pq foi em rede 525 4410 010 O 10 Comentários 2021/nov/23 

Tu xerecas Ela xereca Nós xerecamos Vós xerecais Eles 1,076 7410 010 O 10 Comentários 2021/nov/23 

C - É claro que verdade também xerecar é claro que eu acho que 1,290 9110 0 10 O 10 Comentários 2021/nov/23 
pontuo bem. * C - Eu xereco Tu xerecas Ela xereca Nós 1,072 741410 010 O 10 Comentários 2021/nov/23 
Ela xereca Nós xerecamos Vós xerecais Eles xerecam Vw 1,078 7410 010 O 10 Comentários 2021/nov/23 
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Fonte: Concord. 


No corpus deste trabalho, encontramos 12 ocorrências que foram agrupadas sob o lema! 
xereca. Através dos exemplos, percebe-se que a utilização dessas lexias está relacionada à 
necessidade de criação de palavras que “verbalizem” os substantivos, transformando seus 
significados em ações que refletem sentidos literais ou metafóricos, demonstrando, assim, 
que a criação de palavras pelos falantes se dá em contextos diversos de comunicação, com o 
propósito de veicular ações, ideias, conceitos etc. 


4 Resultados e discussão 


Buscando observar como o corpus de estudo representa a palavra Karen, analisamos as 
linhas de concordância. Encontramos a recorrência de um certo tipo de comentário, os elogiosos. 
Foram identificados os adjetivos incrível” (4 ocorrências) e maravilhosa (2 ocorrências). 
Por outro lado, encontramos ocorrências que nos chamam a atenção para o uso coloquial e 
metafórico da linguagem, como os itens foda e bombando”; expressões como menina leve”, 
“que mulher!”, “do bem” e emoticons de corações e rostos apaixonados. 


Assim, seguindo o Sistema de AVALIATIVIDADE e com base no que o corpus de comentários 
nos guiou, destacamos a ocorrência de algumas dessas avaliações. Considerando que o 
Sistema de AVALIATIVIDADE subdivide-se em Afeto (emoção), Julgamento (ética) e Apreciação 


12 No WST, a coluna lemma é destinada aos ‘lemas’, que, de acordo com Berber Sardinha (2009, p. 154), "são formas canônicas de palavras, 
como, por exemplo, casa, que encapa casa, casinha, casas, casinhas, casarão, etc”. 
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(estética), foi possível observar que há mais avaliações do tipo Julgamento, do tipo Capacidade 
Positiva, como é possível observar nos exemplos a seguir: 


C 1- Karén é incrível! 
C 2 —- Karén é maravilhosa! 
C 3 - Karén é foda! 


É possível perceber que os adjetivos aplicados a Karen são positivos e estão relacionados 
à sua capacidade diante da sociedade, o que é capaz de causar admiração, como uma atitude 
positiva. Já com relação às avaliações do tipo Afeto, elas se realizam por meio da processo 
mental “amar”, conforme mostram os exemplos: 


C 4- KAREN JONZ EU TE AMOOO 
C 5- Karen é incriível...amo demais! 


Veja que as realizações de avaliações do tipo Emoção demonstram um sentimento positivo, 
de felicidade. Já com relação às realizações de Apreciação, encontramos: 


C 6 - AMEI os looks e o cabelo da Karen. 
C 7- Coisa mais linda a Karen bombando, ficando cada vez mais famosa. 


Nesses exemplos, é possível dizer que ocorrem avaliações em relação à estética de Karen, 
relacionadas à sua composição (aparência). Além disso, encontramos um exemplo de apreciação 
da situação na qual a Karen está envolvida (evidência), sendo avaliada de forma positiva por 
estar sendo bastante citada, consequentemente, fazendo sucesso. A seguir, apresentamos o 
Quadro 2 para sintetizar as ocorrências encontradas. 


Quadro 2: Resultados AVALIATIVIDADE. 


Classificação das ocorrências do tipo Atitude 


Fonte: Elaborado pela autora. 


No que se refere às ocorrências relacionadas ao lema xerec, encontramos o substantivo 
xereca, para se referir ao órgão genital feminino, corroborando os estudos de Almeida (2020) 
e Zavaglia (2018), conforme os exemplos: 


C 8 - Quando a competidora bateu a xereca. 


C9- Xereca s. f. genitália feminina. 
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Já o neologismo xerecard, resultado do cruzamento vocabular das palavras xereca e card 
(cartão, em inglês), foi utilizado como um substantivo e referia-se ao nome de uma música do 
MC Brisola!*. A noção de xereca como instrumento também apareceu em outro exemplo com 
o verbo no infinitivo xerecar, em que se avalia negativamente a ação de xerecar, sendo esta 
entendida como um ato pejorativo e sexualizado, diferente do sentido utilizado pela skatista 
e comentarista Karen Jonz, conforme os exemplos: 


C 10 — Por causa da música xerecard é só pq foi em rede aberto 
C 11- Xerecar? arma que vcs mulheres usam para obter BENEFICIOS 


As formas verbais conjugadas no presente do indicativo, xereco, xerecas, xereca, xerecamos, 
xerecais e xerecam, ocorreram em comentário que demonstrava a possibilidade de conjugação 
verbal desse neologismo, exemplificando mais uma vez o potencial de criatividade linguística. 
Também destacamos a utilização da palavra flexionada no pretérito perfeito para a terceira 
pessoa do singular, conforme os exemplos a seguir: 


C 12 — Eu xereco Tu xerecas Ela xereca Nós xerecamos Vós xerecais Eles xerecam 
C 13 - Parte íntima no ferro falar xerecou” 


Após a observação dos itens lexicais aqui descritos, fica evidente que o recurso linguístico 
de criação de palavras a partir de uma base substantiva é um fato linguístico sistêmico e que 
ocorre no português brasileiro, como é o caso de xerecou e tantos outros usos, como os já 
citados sextou e bombou e outros que ainda serão descritos, como Adrenalizou;, título da 
canção de Vitor Kley“. 


Porém, o que difere no fato linguístico descrito neste trabalho com o item xerecou é que este 
foi um neologismo criado a partir de um vocábulo tabu que carrega, em nossa sociedade, questões 
culturais diversas que perpassam as noções sobre o órgão genital feminino, estereótipos de 
práticas discursivas femininas, como a forma de falar e se expressar, o cuidado vocabular etc. 


5 Considerações finais 


O objetivo deste estudo exploratório foi descrever, a partir da identificação de palavras- 
chave, as escolhas lexicogramaticais de Atitude, utilizadas para expressar avaliações em 
comentários de espectadores do episódio Xerecou: Empoderamento feminino na linguagem”, 
programa publicado em agosto de 2021. 


13 Endereço eletrônico da letra da música Xerecard: https://www.letras.mus.br/mc-brisola/xerecard/. Acesso em: 14 jan. 2022. 


14 Endereço eletrônico da letra da canção Adrenalizou: https://Awww.letras.mus.br/vitor-kley/adrenalizou/. Acesso em: 14 jan. 2022. 
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Ainda que de maneira inicial, esse estudo demonstrou a aplicabilidade da LC e da 
AVALIATIVIDADE para descrever avaliações realizadas em situações reais de uso da língua. 
Logo, também evidenciou a possibilidade de trabalho com corpus de comentários escritos em 
ambientes on-line, destacando a criatividade lexical e a presença de avaliações nesse tipo de 
texto. 


Os excertos escolhidos para análise evidenciam um olhar positivo da audiência sobre a 
entrevistada, destacando o seu perfil ético, através de julgamentos do tipo comportamento 
humano e de comentários favoráveis. Esse aspecto observado vai ao encontro do tema do 
episódio, o qual discute o empoderamento feminino através da utilização de um vocábulo tabu 
por mulheres na sociedade atual. 


Assim, através desta análise, fica evidente a receptividade da audiência com relação ao 
assunto abordado no episódio e à pessoa entrevistada. Além disso, pôde-se perceber os 
significados que o item lexical xerecou carrega, segundo o seu contexto de uso, resultando em 
diferentes ações, as duas literais, porém uma é involuntária, de caráter acidental, e a segunda 
voluntária, de caráter sexual, portanto, veiculando ideias/conceitos distintos, com finalidades 
distintas. 


Além disso, também é possível refletir sobre o estigma existente frente à utilização de 
tabuísmos por mulheres, na sociedade atual, corroborando o que Fairclough (2001, p. 264) 
mencionou como práticas de masculinidade — por exemplo, a pressupostos de que ser homem 
implica práticas discursivas agressivas e obscenas, demonstrando, assim, que o léxico e sua 
utilização refletem os valores da sociedade que o utiliza. 
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1 Introdução 


De acordo com o Oxford English Dictionary, o vocábulo bitch, cuja tradução para o português 
brasileiro equivale a cadela, é utilizado de modo pejorativo desde cerca dos anos 1000. Hodgson 
(2008) afirma que a palavra começou a ser utilizada para se referir de maneira pejorativa às 
mulheres por volta de 1400, sendo considerado, portanto, um vocábulo vulgar e obsceno na 
língua inglesa desde então. O uso do vocábulo, que carrega difamação sexual, é considerado um 
insulto, cujo significado equivale ao mesmo de outras palavras da língua inglesa como whore, 
slut e hoe”. Hoje em dia, o vocábulo continua sendo utilizado com conotação pejorativa para 
se referir às mulheres. No entanto, o tabu em torno da palavra mudou. A palavra adquiriu novos 
usos que se expandiram e que, hoje em dia, também fazem parte do uso da língua inglesa por 
falantes de língua materna e de segunda língua. 


O vocábulo em questão é muito utilizado em letras de músicas de rappers americanos por 
ambos os sexos, feminino e masculino. Assumimos a hipótese de que o vocábulo bitch é usado 
por rappers do sexo masculino em sua maioria com conotação pejorativa, especialmente para 
se referirem às mulheres, tratando-as como objeto e expressando domínio sobre elas. Por outro 
lado, assumimos que o uso do mesmo vocábulo por rappers do sexo feminino, em sua maioria, 
é feito para se referir a outra mulher, mas não de modo depreciativo e sim de maneira afetiva. 


A partir dessas hipóteses, temos como objetivo principal analisar o uso do mesmo vocábulo 
em canções de rap interpretadas por rappers do sexo masculino e feminino, a fim de verificar os 
significados atribuídos a ele, partindo da premissa de queas palavras são as nossas ferramentas 
de pensamento, refletindo a realidade social da comunidade onde estão sendo usadas. Para 
tal, iniciaremos o processo com a compilação de letras de músicas a partir dos princípios 
metodológicos da Linguística de Corpus (LC). Ademais, utilizaremos o software WordSmith 
Tools 6.0 (SCOTT, 2012) para uma análise quali-quantitativa de nosso corpus de estudo. 


Este trabalho está organizado em cinco seções, que obedecem à seguinte ordem: introdução, 
fundamentação teórica, metodologia, resultados e discussão de dados e, por fim, considerações 
finais. 


2 Fundamentação teórica 


De acordo com Dalzell e Victor (2008), a palavra bitch tem sido utilizada de maneiras distintas 
desde a primeira vez que se soube a seu respeito. Em 1400, o termo era utilizado unicamente 
para se referir a uma mulher de comportamento sexual desprezível e era considerado um dos 
termos mais ofensivos da língua inglesa. Hidayat (2018) afirma que, em 1923, foi encontrado o 


2 As palavras whore, hoe e slut são traduzidas para o português brasileiro como puta. 
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que seria o primeiro registro do vocábulo para designar um homem com papel passivo em uma 
relação homossexual, colocando em dúvida sua masculinidade. Em 1943, o uso do vocábulo se 
expandiu, passando a designar uma coisa ou pessoa notável. Nos Estados Unidos, o vocábulo 
também é empregado como sinônimo da palavra mulher. Ainda segundo Hidayat (2018), embora 
o uso da palavra bitch tenha adquirido novos significados ao longo dos anos, a raiz do seu 
significado de origem, que é basicamente uma mulher de comportamento sexual desprezível, 
é ainda mais dominante do que outros significados. Atualmente, a palavra bitch possui uso 
recorrente no cenário pop e é usada desde canções a manchetes e, até mesmo, em diálogos 
verbais na televisão em horário nobre. 


Os cantores, através de suas músicas, refletem o comportamento linguístico dos indivíduos 
de uma comunidade de fala e, assim como eles, empregam o vocábulo em questão de 
diferentes maneiras. Caretta (2011) afirma que os elementos históricos são indispensáveis 
para compreensão de uma canção, uma vez que determinam o estilo de uma época. Summers 
(2004) argumenta que um álbum define as sensibilidades musicais de um artista em um 
determinado momento da história. Uma vez que estudamos o comportamento linguístico de 
indivíduos em sua comunidade através de letras de músicas, este trabalho está inserido no 
ambito da Sociolinguística, cuja função principal é estudar a relação entre língua e sociedade. 
Weinreich, Labov e Herzog (2006) afirmam que é impossível estudar as variações e mudanças 
de uma língua sem associá-las ao contexto social em que está inserida. A Sociolinguística 
nos permitirá, portanto, analisar como o uso linguístico do mesmo vocábulo feito por rappers 
do sexo masculino e feminino reflete o comportamento dos indivíduos na sociedade. Para a 
análise quantitativa dos dados, utilizaremos a LC, que é uma metodologia de base empírica, 
voltada para a análise e descrição de dados linguísticos através da análise de corpus. 


Dentro da LC, trabalhamos com a Estilística de Corpus, que combina a metodologia de 
corpus com abordagens mais intuitivas. Para Mahlberg (2007), a Estilística de Corpus visa 
descrever e analisar o estilo, ou seja, o que é distinto na forma como a língua é utilizada por 
um autor específico, ou numa obra específica, ou num período específico. 


Haja vista que a Sociolinguística e a Estilística de Corpus permitem a identificação de 
tendências, relações intertextuais e reflexões dos contextos sociais e culturais, consideramos 
essas abordagens apropriadas para a análise e descrição deste estudo. 


3 Metodologia 


Foram selecionadas quarenta letras de músicas do gênero rap. Em seguida, as letras 
foram compiladas e salvas em formato txt e codificação ANSI, a fim de que os arquivos fossem 
processados pelo software de análise linguística WST 6.0 (SCOTT, 2012). As canções foram 
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divididas em dois corpora: male rappers' songs e female rappers' songs. Foram selecionadas 
dez canções de cada um dos seguintes rappers: Da Babby, Roddy Ricch, Doja cat e Megan 
thee Stalion. A escolha dos rappers foi feita de acordo com os seguintes critérios: 1) todos 
os rappers estão na lista de top 10 artistas do ano de 2020 da renomeada revista de música 
americana Billboard; 2) todos fazem parte do segmento rap. As letras das quarenta canções 
foram retiradas do website Genius”, que foi escolhido por ter as letras de músicas verificadas 
pelos próprios artistas e, também, por exibir o número de visualizações que cada música possui. 
Foram compiladas as letras das dez canções mais acessadas pelos usuários da plataforma de 
música de cada um dos artistas acima mencionados. 


Após a compilação das quarenta canções, utilizamos a ferramenta Wordlist do programa 
WST para gerar uma lista de palavras. Essa ferramenta permite a criação de uma lista de palavras 
presente no corpus, elencadas em conjuntos com suas frequências absolutas e percentuais 
(BERBER SARDINHA, 2006). A fim de verificar o tamanho dos dois corpora deste estudo, foram 
confeccionadas duas listas de palavras: uma para o corpus male rappers songs e outra para 
o corpus female rappers’ songs. A tabela 1 mostra a extensão do corpus, cujo número total de 
tokens‘ é de 26,314. 


Tabela 1: Número de tokens do corpus de estudo. 


NOME DO CORPUS Nº DE CANÇÕES COMPILADAS NÚMERO DE TOKENS 
13,435 
12,879 


Male rappers songs 


N N 


Female rappers’ songs 


Fonte: Elaborada pelo autor. 


De acordo com Berber Sardinha (2004), devido ao número total de tokens, esse corpus é 
caracterizado como pequeno. No entanto, como nosso objetivo é analisar o uso do vocábulo 
bitch em letras de rap, o tamanho do corpus se mostra adequado e representativo para esse 
estudo. Após a elaboração das listas de palavras nos dois corpora, observamos que a palavra de 
conteúdo com maior número de ocorrências em ambas as listas foi o vocábulo bitch; guiados 
por nossa intuição, optamos por trabalhar com esse item lexical. Os itens cujas frequências 
foram maiores são palavras funcionais, tais como, pronomes, preposições e artigos, que não 
apresentam traços distintivos para nosso estudo. 


Após a confecção das duas listas de palavras obtivemos a seguinte lista de frequência 
para o item lexical bitch. 


3 Disponível em: https://genius.com. Acesso em: 10 set. 2021. 


4 Tokens se refere ao número total de palavras existentes em um dado texto ou corpus. 
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Tabela 2: Frequência do item lexical bitch nos dois corpora. 


FEMALE RAPPERS SONGS MALE RAPPERS’ SONGS 


168 


83 


Fonte: Elaborada pela autora. 


Buscando observar como o vocábulo bitch é utilizado por rappers americanos a partir da 
variável independente sexo, analisamos as linhas de concordância desse item lexical em ambos 
os corpora. As linhas de concordância exibem todas as ocorrências de uma palavra ou grupo 
de palavras precedidas e seguidas de seu contexto no texto (RAYSON, 2015). Devido à alta 
frequência do vocábulo bitch em ambos os corpora, limitamos o estudo apenas ao seguinte 
ambiente sintático: adjetivos + substantivo bitch. Após a limpeza das linhas de concordância 
que não seguiam o ambiente sintático a ser observado, obtivemos o seguinte recorte para as 


linhas de concordância. 


Figura 1: Linhas de concordância da palavra bitch no corpus female rappers' songs após a limpeza. 


N Concordance n Set Tag Word É Seni 
1) think this shit get better with another bitch, go get her (Go and get her) 521 1 
* see you proud of me I'm just a real ass bitch, give a fuck about a trick On 412 12 
3 some cameras in here Im a bad bitch, she's a savage, no comparison 626 17 
+ Shoulda known you had the baddest bitch Left on read and can't give head 181 0 
5. cow Bitch, Im a cow, bitch, l'm a cow Bitch, Im a cow, bitch, l'm a cow (Moo 396 5 
È Bitch, l'm a cow, bitch, l'm a cow Bitch, l'm a cow, bitch, l'm a cow 301 5 
i wish a bitch would, and l'm a genie Bitch so hot, gotta stay in bikinis He 243 1 
é Thee Stallion] Your honor, l'm a freak bitch, handcuffs, leashes Switch my 218 0 
º the ho that you fuckin' with if | find her Bitch, you ain't that busy, | don't give a 209 1 
10 to say jealous All y'all bitches is jealous Bitch, bitch [Chorus] Said play with my 246 0 
11 V? (Brr) And who gon' tell him that my bitch is getting her degree? And when 405 9 
12 follow me? “Cause even in your new bitch, | can see a lot of me And 436 12 
13 like Im alien, bitch, Im fucking reptilian Bitch, bitch, aw All y'all bitches was 209 0 
là beat Mist 1: sita Thee E Bitch, dd a did o these ETR 42 0 
à EE ne throwback pic: 1at bitch (Uh) [Chorus] l'm a hot girl, | do 323 0 


Sent. 


Fos. Fara 


66% 
14% 
15% 


60% 0 
43% | 
26% 0 


63% 
89% 
13% 


93% O 
A% 0 


2% 


14% 


86% O 


459% O 


0 


0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 


Fonte: WordSmith Tools 6.0. 


Sect. Pos. File Date 


Fara. 
Pos. Hem Hea Sed 
T3% 0 
| 51% 0 
| T4% 0 
43% 0 
56% 0 
43% 0 
| 28% 0 
68% 0 
| 29% 0 
36% 0 
44% 0 
| 4T% 0 
33% 0 
5% 0 
80% 0 


T3% bitchtxt 2021/0ut/01 ( 
21% hot girl summ 2021/set/29( 
14%  savagetx 2021/set/29( 
43% aint shit.txt 2021/set'30( 
56% moo.txt 2021/set'/30( 
43% moo.txt 2021/set/30( 


29% thotshitixi 2021/set/29( ; 
68% wap txt 2021/set29( | 


29% bitchtxt 2021/0ut/01 ( 


38% rules.txt 2021/set/30 ( 


44% hot girl summ 2021/set/29( 
41% hot girl summ 2021/set/29( 
33% rules txt 2021/set/30 ( 

5% cash shittt 2021/set/29 ( 
66% captain hook. 2021/set/29( 


Figura 2: Linhas de concordância da palavra bitch no corpus male rappers songs após a limpeza. 


N Concordance m Set Tag Word É Seni ias Para 
! a sniff l'm pure like cocaine in the '80s Bitch [Outro] That ain't the baby, that's 964 0 98% O 
2 a hundred plays in a day Put an Arabic bitch inside of the face And | got the 230 1 51% 0 
3 (Woo) This aint no mid from Arizona Bitch, l'm serious (Real), period 463 8 65% 0 
* [Verse 3: Yung Miami] You broke ass bitch, you ain't sayin' nothin' When | 382 6 21% 0 
3 diamonds offset like Cardi Got a bad bitch with me, she a Barbie, huh You 61 0 10% 0 
Ê dies | make the chrome-chrome fly Bitch, Im a wave, Roll Tide Bullets at 246 1 49% 0 
* out the price on a boat (Okay) My lil bitch act like Megan Thee Stallion 413 6 16% 0 
8 whip had a cop in it (Woo, okay) My bitch got good pussy, fly her cross the 311 3 16% 0 
* Dont think that she lied to you, nigga (Bitch) Get caught with your ho when 13 0 17% 0 
W Tve been trapping got to get a Patek Bitch I'm rich | can't be livin' in debt 671 1 79% 0 
11 me Clip got thirty-three, Scottie Pippen Bitch nigga ain't heard of me, | got a 31 0 9% O 
it "Member | used to cheat off a pretty bitch test All the teachers, they thought 631 0 95% 0 
13 Meech, and Chapo That's my top three Bitch | was serving the sidewalk Then | 188 1 22% 0 
dá need a reason, loyalty over treason Bitch nigga, come and see me Put 269 3 36% 0 
15. Aguafina, quick trip to Catalina White bitch bad as Selena, fuck her, then a 404 0 68% 0 
16 like cocaine in the 80s | ai laiii N vo dai on my dick, she é a li aa 322 0 56% 0 


Fonte: WordSmith Tools 6.0. 


Fara. Pos. 


98% 
31% 
99% 
49% 
10% 
63% 
64 
42% 
15% 
80% 

9% 
83% 
22% 
43% 
68% 
26% 
66% 


Hea: Hear Seci 


sect. Pos. File Date 


98% going baby.tx 2021/0ut/03 ( 
3%  tiptoetkt 2021/set/30 ( 
59% said sumi 2021/set/29( 
49% said sumi 2021/set/29( 
10% start with me: 2021/set/30 ( 


65% war baby txt 2021/0ut/01 ( < 


64% bop.txt 2021/set/29( 
42% bop-txt 2021/set/29( 
15% suge.txi 2021/set/29( 
80% every season 2021/set/30 ( 

5% start with me: 2021/set'30 ( 


83% suge.tit 2021/set29( | 
22% every season 2021/set/30 ( 


43% under the sun 2021/set/29( 


68% down below t 2021/set/30 ( « 
56% going baby tx 2021/0ut0O3 ( 


66% going baby tx 2021/out/03 ( 
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A partir das ocorrências do vocábulo bitch nos dois corpora de estudo, optamos por criar 
campos semânticos, a fim de analisar e descrever os adjetivos que precedem ao vocábulo 
levando em consideração a variável independente sexo. De acordo com Fischer-Starcke (2009), 
ao identificar campos semânticos em um corpus, os significados dominantes dos dados podem 
ser revelados. 


4 Resultados e discussão 


A partir das linhas de concordância das letras de rap interpretadas por mulheres, observamos 
que os adjetivos mais frequentemente empregados com o vocábulo bitch possuem conotações 
positivas referentes ao comportamento da mulher na sociedade, atribuindo a elas o papel de 
mulheres empoderadas e seguras de si, como é possível observar nas seguintes linhas. 


e | am just a real ass bitch. 
Eu sou uma mulher foda”. 


e Shoulda known you had the baddest bitch. 
Você deveria saber que você tinha a melhor de todas. 


Também foi observado o uso do vocábulo com conotação negativa para se referir a simesma 
ou a outra mulher. Atestamos o uso do vocábulo para descrever alguém cuja personalidade 
é condenada, ora por esta mulher se comportar de maneira inadequada ou por haver algum 
tipo de rivalidade entre duas mulheres, onde uma deseja possuir o que é da outra. Atestamos 
tal nas seguintes linhas de concordância. 


e Your honor, I'm a freak bitch. 
Sua excelência, eu sou uma vadia louca. 


e All yall bitches is jealous bitches. 
Todas vocês são vadias invejosas. 


O vocábulo também foi utilizado nas letras de músicas cantadas por mulheres, para se 
referirem de maneira afetiva a outras mulheres com as quais assumimos que se tenha um 
relacionamento de amizade. Não havendo, portanto, qualquer significado depreciativo. 


e Who gon'tell him that my bitch is getting her degree? 
Quem vai dizer a ele que minha amiga vai se formar? 


Por fim, notamos o uso do vocábulo bitch para se referir a outra mulher, cujo comportamento 
é desagradável e com a qual se tem algum tipo de rivalidade. 


5 Apesar de haver traduções das canções disponíveis na internet, foram necessários alguns reajustes a fim de que a tradução se adequasse 
ao contexto retratado na canção. 


100 | 


e Think this shit get better with another bitch, go get her. 
Você acha que isso vai melhorar com outra vadia, vá buscá-la! 


Identificamos, portanto, quatro campos semânticos para o item lexical bitch no corpus 
female rappers' songs. 


Quadro 1: Campos semânticos do vocábulo bitch no corpus female rappers songs. 


Adjetivo + bitch Significado 


Real ass bitch 
Relação de poder | Bad bitch / the baddest bitch 
Genie bitch 


Freak bitch Mulher louca e sem pudores. 
Insulto Jealous bitch Mulher invejosa e que fala mal de outra mulher. 


Mulher de atitude, confiante, inteligente e independente, 
que lida de maneira direta com seus problemas 


Cow bitch Uma mulher que te irrita e que faz coisas erradas. 
My bitch Uma mulher com a qual se tem um relacionamento 
Afeto 
Her bitch de amizade. 
e Another bitch z 
Competitividade New bitch Mulher que não te agrada. 


Fonte: Elaborado pelo autor. 


Diferentemente do que foi observado na análise do uso do vocábulo por mulheres, 
constatamos que o uso do vocábulo nas letras de rap cantadas por homens apresenta teor 
negativo. As linhas abaixo revelam o tratamento que a figura da mulher recebe, por parte dos 
rappers no corpus em questão. Constatamos que a figura feminina é retratada como um objeto 
sexual cuja única função é a de satisfazer os desejos dos homens. 

e Your bitch on my dick. 


Sua vadia no meu ***º, 


e My bitch got good pussy 
Minha vadia tem a ****** boa. 


e My little bitch. 
Minha vadiazinha. 


Observamos que o vocábulo foi precedido em algumas linhas de concordância por pronomes 
adjetivos, que parecem demonstrar a relação de poder e de posse que a figura masculina 
(aqui representada pelos rappers) admite ter sobre a figura feminina. Diferentemente do que 
foi identificado anteriormente no corpus dos rappers do sexo masculino, atestamos o uso do 


6 Optamos por não exibir a tradução de algumas palavras por considerá-las inadequadas. 
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termo para se referir à mulher de maneira não depreciativa, mesmo que isso tenha ocorrido 
uma única vez. Foi identificada em uma das linhas de concordância o uso do adjetivo bad para 
descrever o item lexical bitch. A expressão bad bitch é utilizada por ambos, homens e mulheres, 
mas com maior frequência atestada na fala das mulheres para se referir a mulheres que são 
autoconfiantes e seguras de si. 


e Got a bad bitch with me. 
Tenho uma mulher foda comigo. 


Também foi atestado o uso do item para se referir a outros homens negros com conotação 
negativa, colocando em dúvida sua masculinidade. 


e Dont you think that she lied to you, nigga bitch. 
Não acha que ela mentiu para você, seu veado. 


Em algumas linhas, percebemos que o vocábulo foi utilizado para descrever uma pessoa 
detestável, com a qual não se tem relação amigável independente do gênero, podendo se 
referir a um homem ou a uma mulher. 


e You broke ass bitch. 
Seu(sua) otário(a). 


Por fim, notamos que o vocábulo também foi utilizado para se referir a pessoas em geral 
sem cunho depreciativo. Percebemos que nesse uso o vocábulo bitch seria equivalente a 
outras palavras da língua inglesa como guys e dude’. 


e Top three bitch. 
Os caras do meu top 3. 


e Arizona bitch. 
Um cara do Arizona. 


A partir das análises feitas acima, concluímos que, nas letras do corpus male rappers songs, 
o vocábulo bitch foi utilizado em quatro campos semânticos diferentes, como podemos ver 
no quadro 2. 


7 Tradução nossa: galera e parceiro 
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Quadro 2: Campos semânticos do vocábulo bitch no corpus male rappers songs. 
Adjetivo + bitch Significado 


Posse/poder My bitch Mulher que é vista como propriedade do homem e que dele 
Your bitch depende. 


Ofensas ansamento Broke ass bitch Uma pessoa fraca e desprezível e de comportamento 
6 Little bitch desagradável. 
Termo de referência Arizona bitch Qualquer pessoa. 


Fonte: Elaborado pelo autor. 


Empoderamento Bad bitch Mulher independente e segura de si. 


Uma vez apresentadas as análises deste trabalho, passamos à seção de considerações. 


5 Considerações finais 


O vocábulo bitch, através de um processo de broadening’, adquiriu novos significados ao 
longo dos anos. Através de procedimentos metodológicos da LC e com o auxílio do software 
Wordmith Tools 6.0, realizamos uma análise do item lexical bitch nas letras de canções de rappers 
norte-americanos, onde atestamos que ambos os rappers, do sexo masculino e feminino, usam 
o vocábulo bitch de maneira recorrente em suas canções. 


A partir das premissas da Estilística de Corpus e da Sociolinguística, confirmamos as 
hipóteses inicialmente apresentadas e comprovamos que há variação de uso, ou seja, de 
significados do vocábulo bitch nas letras de canções de rap. Após a análise dos dados, que foi 
feita a partir da variante independente sexo, podemos afirmar que o significado atribuído ao 
vocábulo bitch depende de três fatores: contexto, pessoa e propósito. A variação estilística das 
letras de rap está relacionada diretamente à pessoa que as interpreta ou as escreve e isso pode 
ser atestado a partir das análises das escolhas linguísticas do autor ou cantor. Essas escolhas 
linguísticas parecem mostrar o comportamento desses indivíduos na sociedade, refletindo 
assim o seu propósito dentro dela. Após análise quali-quantitativa dos dados, atestamos que 
o termo bitch foi utilizado majoritariamente no corpus male rappers songs com conotação 
negativa, referindo-se principalmente à mulher de modo pejorativo. Através da análise das linhas 
de concordância, notamos que, nas letras desse corpus, a mulher é colocada em uma posição 
na qual o homem exerce algum tipo de poder sobre ela, resumindo-a apenas a um objeto sexual. 
Tais resultados parecem refletir o tratamento machista recebido pelas mulheres na sociedade 
atual, onde alguns homens as enxergam apenas como provedoras de suas vontades sexuais 
e também como seres dependentes deles tanto financeira como emocionalmente. 


8 De acordo com Hollmann (2009), broadening é um processo de mudança semântica caracterizado pela expansão de significados de uma 
palavra ao longo dos anos. 
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Diferentemente do que esperávamos, também atestamos, com apenas uma ocorrência no 
corpus de estudo, o uso do item lexical para se referir às mulheres com o intuito de exaltá-las. 
Além disso, o vocábulo também foi empregado com outras conotações, tais como, xingamento 
e como termo geral para se referir a outra pessoa independente do gênero. Em relação ao 
uso do vocábulo no corpus female rappers songs, atestamos que vários significados foram 
atribuídos ao item lexical bitch. O vocábulo foi utilizado como termo de referência ou de afeto, 
assim como forma de xingamento a outra pessoa, seja ela homem ou mulher. Comprovamos a 
hipótese de que o vocábulo é majoritariamente usado pelas rappers com conotação positiva. 
Os resultados desse corpus apontaram que o vocábulo bitch foi usado em sua maioria com o 
intuito de descrever as mulheres como figuras empoderadas, confiantes e autossuficientes. 


O resultado da análise desse corpus parece refletir o papel que a mulher possui na 
sociedade atual. Ao longo dos anos, atribuiu-se à mulher o papel de um ser dependente da 
figura masculina, assim como de um ser inferior a ele. No entanto, graças aos movimentos 
feministas, uma grande mudança tem sido percebida no que diz respeito à figura feminina. A 
sociedade em geral, e principalmente as mulheres, está mais consciente do seu poder e da sua 
importância. A língua, que é um produto social, reflete, através das escolhas linguísticas dos 
seus falantes, o comportamento dos indivíduos de uma sociedade. As mudanças e variações 
linguísticas de uma língua também são atestadas na música, refletindo o contexto social onde 
aquele indivíduo está inserido, como observamos através da análise dos dados dos corpora 
deste trabalho. 
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1 Introdução 


A música faz parte da vida das pessoas desde os primeiros tempos da humanidade, como 
uma forma de expressão artística que propõe a harmonia entre sons, ritmo, melodia e voz. Por 
Isso, a música tem o poder de emocionar, resgatar memórias, proporcionar lazer, diversão e 
até mesmo auxiliar em tratamentos médicos, como é o caso da musicoterapia, uma terapia 
baseada na música e que está ganhando poder de remédio para silenciar males tão distintos 
quanto dor e depressão (BIERNATH, 2019, on-line). 


O fácil acesso e a versatilidade proporcionados pelos vários estilos fazem com que a música 
seja uma importante aliada no ensino de línguas, materna e estrangeira, devido a sua riqueza 
lexical. Por estar inserida no imaginário coletivo e transitar livremente em todas as camadas 
sociais, a canção é portadora de palavras e expressões com cargas culturais compartilhadas 
entre a coletividade (BARBOSA, 2005). 


Perante o exposto, o objetivo geral do nosso estudo é identificar a conotação positiva, 
negativa ou neutra do item lexical mulher e de itens relacionados a este em letras de canções 
do estilo sertanejo (country). Os objetivos específicos são: 1) analisar o campo lexical das letras 
de canções por meio do software WordSmith Tools 4.0 (SCOTT, 2004); 2) identificar os itens 
lexicais que se associam com maior frequência à palavra mulher e 3) desenvolver e apresentar 
uma sequência didática para discutir em sala de aula o campo lexical relacionado à palavra 
mulher nas letras de músicas, bem como para abordar suas conotações. 


Na atual conjuntura, em que tanto se fala sobre igualdade de gênero, sobre as conquistas 
e os desafios das lutas feministas, e tendo em vista os números crescentes de violência contra 
a mulher, especialmente no atual contexto pandêmico, acreditamos que a sala de aula seja o 
espaço para problematizar todas essas questões sob o viés da Lexicultura (BARBOSA, 2009), 
propondo discussões sobre o item lexical mulher, sua carga cultural compartilhada e, por 
conseguinte, debates acerca da equidade entre os gêneros. 


2 Fundamentação teórica 


Nosso estudo está baseado nos Estudos do Léxico, no sentido de compreender as dimensões 
alcançadas pela palavra como detentora de poder (BIDERMAN, 1998), na indissociabilidade 
entre léxico e cultura (Lexicultura) (BARBOSA, 2009) e na Linguística de Corpus (BERBER 
SARDINHA, 2009). 


Com relação ao country brasileiro, estilo musical analisado neste estudo, é importante 
ressaltar que estamos adotando o conceito definido pelo Rodeo West, site especializado em 
marcas constitutivas do universo country. Ainda de acordo com o site, o country surgiu no 
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Brasil no final da década de 1970. Ao longo dos anos, o país desenvolveu seu próprio estilo 
musical country, hoje chamado de sertanejo (RODEO WEST, 2017). 


Ao recorrermos aos estudos da Lexicologia e da Lexicultura, embora sejam áreas muito 
semelhantes, reforçamos aqui o nosso entendimento de Lexicologia enquanto área da 
Linguística que se preocupa apenas com o léxico e que, apesar de considerar a dimensão 
cultural da palavra, é na Lexicultura que encontramos maior aporte para abordar o léxico 
marcado culturalmente e voltado para práticas de ensino por meio da abordagem da carga 
cultural compartilhada pelas palavras. 


2.1 Dimensões da palavra e do léxico 


A palavra, segundo Biderman (1998), apresenta as dimensões mágica, religiosa, cognitiva e 
linguística, a partir das quais podemos compreender seu poder na constituição das sociedades 
e na manutenção de costumes, hábitos e crenças de um povo. Aqui, vamos discorrer apenas 
sobre as dimensões mágica e religiosa, por entendermos que essas dimensões se relacionam 
intrinsecamente com as escolhas lexicais que fazemos no processo comunicativo. 


Neste sentido, a autora diz que o homem primitivo acredita na relação entre a escolha de 
um nome e o ser (pessoa, objeto, coisa) e por isso a escolha dos nomes não se dá de maneira 
arbitrária, mas sim, é uma escolha que envolve crenças, mitos. É aí que a palavra adquire o 
poder mágico e influenciador no destino de uma pessoa, por exemplo. 


Nas numerosas tradições culturais dos homens a linguagem surge com a palavra instituidora que 
abre ao ser o espaço para ele se manifestar. Todas as culturas nascem de uma palavra criadora, 


dita em tempos imemoriais por um poder divino (BIDERMAN, 1998, p. 84, grifo da autora). 


A palavra assume assim nos mitos de cada cultura uma força transcendental; nela deitam raízes 
os entes e os acontecimentos. Por ser mágica, cabalística, sagrada, a palavra tende a constituir 
uma realidade dotada de poder. Os mitos falam dos segredos e das essências escondidas na 


palavra instituidora do universo (BIDERMAN, 1998, p. 81, grifo da autora). 


Barbosa (2009) enfatiza que o léxico nos auxilia a compreender e a explicar a sociedade da 
qual fazemos parte ou pretendemos conhecer/integrar. Isso é possível por conta da carga cultural 
compartilhada das palavras, ou seja, trata-se do valor acrescentado ao sentido referencial da 
palavra, que é conhecido e compartilhado entre os membros pertencentes a uma cultura e 
constitui fator de aproximação e de reconhecimento mútuo. 
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O léxico possui um papel importante para a emissão e para a compreensão de significados, 
pois está diretamente ligado aos aspectos cognitivos, sociais e culturais de uma língua. De 
acordo com os princípios de E. Sapir, as palavras são uma forma privilegiada de acesso a uma 
cultura, uma vez que elas são portadoras de concepções ou de visões de mundo. Desse modo, 
as características específicas de cada língua podem ser consideradas o reflexo da identidade 
cultural da sociedade (BARBOSA, 2009, p. 31). 


Apresentados esses primeiros pressupostos teóricos, passemos às considerações sobre 
a sequência didática a ser desenvolvida com o auxílio da Linguística de Corpus. 


2.2 Sequência didatica: contribuição da 
Linguistica de Corpus para a sala de aula 


Para que possamos refletir sobre qualquer tema em sala de aula e para que essa discussão 
seja significativa para os estudantes, faz-se necessária a elaboração de sequências didáticas 
amparadas pelos documentos oficiais que regem a educação nos entes federados. No estado 
de Goiás, esse documento é o Currículo Referência do Estado de Goiás, lançado em 2012, pela 
Secretaria Estadual da Educação. O documento em questão tem como objetivo contribuir 
com as unidades educacionais por meio da apresentação de propostas de bimestralização 
dos conteúdos, para a melhor compreensão dos componentes do currículo e sua utilização 
na sala de aula (GOIÁS, 2021). 


Em 2021, o Currículo Referência passou por alterações e ganhou a versão adaptada em 
virtude do contexto pandêmico da Covid-19, buscando garantir qualidade no ensino da rede 
pública estadual, apesar dos impactos da pandemia para os estudantes. Embora tenha passado 
por adaptação, o documento continua prevendo práticas reflexivas, levando em conta aspectos 
sociais e culturais, entre eles, as discussões relacionadas à mulher. Sendo assim, apresentamos 
ao final das discussões deste estudo uma proposta de sequência didática desenvolvida com 
base nas orientações contidas no Currículo Referência (GOIÁS, 2021), no intuito de promover 
momentos de discussão e reflexão em sala de aula da temática trabalhada neste estudo. 


2.3 Linguistica de Corpus e WordSmith Tools 


Neste estudo, como evidenciado anteriormente, lançamos mão da Linguística de Corpus 
(doravante LC), que, segundo Berber Sardinha (2004, p. 3), 


[...] ocupa-se da coleta e exploração de corpora, ou conjuntos de dados linguísticos textuais 
coletados criteriosamente, com o propósito de servirem para a pesquisa de uma língua ou 
variedade linguística. Como tal, dedica-se à exploração da linguagem por meio de evidências 


empíricas, extraídas por computador. 
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É importante ressaltar que a LC vem revolucionando cada vez mais a maneira como se 
investiga a linguagem nos seus mais diversos níveis (BERBER SARDINHA, 2009). Muitas são as 
possibilidades de aparato tecnológico para que o linguista faça suas análises. Nesse sentido, 
destacamos a importância da utilização do software WordSmith Tools (doravante WST) para 
o processamento de dados linguísticos. Segundo Berber Sardinha (2009, p. 6), 


O programa WordSmith Tools é um conjunto de programas integrados (suíte) destinado à análise 
linguística. Mais especificamente, esse software permite fazer análises baseadas na frequência 
e na co-ocorrência de palavras em corpora. Além disso, ele permite pré-processar os arquivos 
do corpus (retirar partes indesejadas de cada texto, organizar o conjunto de arquivos, inserir e 


remover etiquetas etc.), antes da análise propriamente dita. 


Neste estudo, utilizamos a LC pela produtividade na organização e seleção dos dados a 
serem analisados. O WST, por sua vez, foi utilizado devido ao fato de oferecer ferramentas que 
permitem análises em diferentes níveis do corpus. 


3 Procedimentos metodológicos 


O primeiro passo para o desenvolvimento deste estudo foi uma pesquisa por conteúdos 
disponibilizados pelo site de músicas Vagalume” e verificamos que o mesmo conta com cerca de 
quarenta estilos, ou gêneros musicais e mais de mil artistas. Feito isto, o critério que adotamos 
para a escolha do estilo musical foi sua popularidade e levando em consideração que o estilo 
sertanejo é predominante no estado de Goiás, onde o estudo foi realizado, optamos pela 
seleção de todas as letras de música do estilo country, composto por 29 artistas, com músicas 
sertanejas variadas, algumas atuais, outras nem tanto, com nomes como Paula Fernandes, 
Nayara Azevedo, Chitãozinho e Xororó e Edson e Hudson, entre tantos outros. Em seguida, 
iniciamos o processo de compilação das letras. O corpus é composto por 532 arquivos, que 
foram processados por meio do WST. A análise foi realizada utilizando as ferramentas WordList 
(lista de palavras) e o Concord (concordanciador). 


4 Análise e discussão 
4.1 WordLIst 


Na primeira etapa da análise de dados, por meio da ferramenta WWordList, mensuramos 
a extensão do corpus, que totaliza 87.501 tokens (itens) e 6.755 types (formas). Desse total, 
com base na análise da lista de palavras, observamos que a palavra que apresentou a maior 


2 Disponível em: hitps://mwwvagalume.com.br/. Acesso em: 25 jan. 2022. 
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frequência no corpus, com 3101 (3,54%) ocorrências. Aqui, é importante ressaltar que a palavra 
“que exerce várias funções em um enunciado, podendo ser conjunção, pronome, substantivo, 
advérbio, preposição, interjeição ou partícula de realce (RIGONATTO, 2022). Desse modo, a 
definição da função da palavra “que” depende do enunciado no qual ela está inserida. 


A segunda palavra mais frequente foi o pronome pessoal reto eu”, com 2.814 (3,22%) 
ocorrências, seguida de o”, que pode ser artigo masculino ou pronome, com 2.394 (2,/4%) 
ocorrências. O advérbio de negação não ocorre 2.165 (2,/4%) vezes, enquanto a preposição 
“de” ocorre 2.057 (2,35%) vezes. O vocábulo 'a, que pode ser artigo feminino, pronome ou 
preposição, ocorre 2.038 (2,33%) vezes, ao passo que a conjunção e possui 2.035 (2,33%) 


ATI 


ocorrências. O pronome “você ocorre 1.738 (1,99%) vezes, o também pronome me” ocorre 


1.404 (1,60%) vezes, e, por fim, a palavra é;, verbo ser no presente do indicativo, aparece 1.245 
(1,42%) vezes no corpus. 


Aqui, cabe ressaltar que apresentamos as 10 palavras mais frequentes da WordList, 
classificadas como palavras instrumentais: artigos, preposições, pronomes, conjunções etc. 
(BIDERMAN, 1998). Como podemos observar, com exceção do verbo ser” no presente do 
modo indicativo (“é”), as demais palavras não são plenas e dependem de outras para que seu 
significado seja completo. 

Figura 1: Recorte da lista de palavras organizada por ordem de frequência. 


E" Word list (unsaved) 
File Edit View Compute Settings Windows Help 


N Word Freg. To Texts w Dispersion Lemmas| Set 
1 QUE 3101] 3 (Bd } E b 493 02,67% 0,7 
2 EU 2.614 S 22 436 81,05% 0,90 
3 (8. 2.304 2 14% ara 89,85% 0,95 
a NÃO 2.165 247% 448 84,21% 0,04 
5 DE 2.057 2 35% 465 7,41% 0,98 
6 - 2038 2 33% 443 83,27% 0,91 
T E 2035 2,33% 443 83,27% 0,04 
8 VOCÊ 1.738 1,99% 332 6241% 0,82 
g ME 1.404 1,60% 364 68,42% 0,90 
10 É 1.245 1,42% 364 68,42% 0,94 
11 PRA 1.111 1,27% 355 66,73% 0,91 
12 SE ggg 1,14% 339 53,72% 0,90 
13 TE 901 1,10 287 53,95% 0,88 
14 MEU 951 1,00% 313 58,63% 0,94 
15 UM Sra 1,00% 309 58,08% 0,91 
16 DO Bea 0,94% 281 52,82% 0,95 
T AMOR T26 0,83% 260 48,67% 0,87 
18 VOU BAr 0, r4% 200 37,59% 0,87 
19 MAIS ba? 0,71% 24A 45,80% 0,89 
20 NO 515 0, r0% 245 46,05% 0,89 
Fonte: WordList. 
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Ainda seguindo as definições de Biderman (1998), as palavras plenas são aquelas que 
possuem significação completa, entre elas os substantivos, adjetivos e verbos. A esse respeito, 
chama nossa atenção o fato de a palavra plena com maior frequência no corpus de estudo 
ser amor, com /26 ocorrências, correspondendo a 0,83% do total de tokens do corpus. Já a 
segunda palavra plena mais frequente foi coração, com 437 ocorrências, representando 0,50% 
do total de tokens. Esses dados podem ser observados nas Figuras 2 e 3, a seguir. 


Figura 2: Recorte da lista de palavras com o item amor em destaque. 


VOCE 1.744 1,99 335 62,97 
ME 1404 1,60 364 68,42 
PRA 1.126 1,28 359 67,48 
SE 1002 1,14 340 63,91 
TE 964 1,10 287 53,95 
MEU 951 1,08 313 58,83 
DO 878 1,00 289 54,32 

Nos! 726 0,83 260 48,87 
MAIS 623 071 244 45,86 
NO 620 071 246 46,24 


Fonte: WordList. 


Figura 3: Recorte da lista de palavras com o item coração em destaque. 


[iF] Country wordlist.lst 
File Edit View Compute Settings Windows Help 


NA 541 0,62 210 3947 

MAS 460 0,52 205 38,53 
MIM 459 0,52 193 36,26 
POR 440 0,50 221 41,54 
436 0,50 220 42,96 
MINHA 407 0,46 177 33,2 
UMA 402 0,46 193 36,26 
SEI 395 0,45 162 30,45 
QUERO I4 0,43 145 27,26 


Fonte: WordList. 


Desse modo, guiados pelos dados apresentados até o momento, acreditamos que a 
frequência estatisticamente significativa dessas palavras comprova que a temática amorosa 
é predominante nas letras de músicas que compõem nosso corpus de estudo. 


Na Figura 4, destacamos o objeto central de nosso estudo, a palavra mulher. Não obstante, 
é possível perceber nesse mesmo recorte da lista de palavras algumas variações, como muié e 
muiezada, um fenômeno linguístico que tanto pode ocorrer em função do nível de escolaridade 
do falante quanto em função de situações informais e até mesmo como estilo adotado pelo 
falante quando ele busca demarcar seu espaço social através das palavras que usa para se 
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comunicar, conforme aponta Eckert (2003). Nesse caso, essas variáveis são comuns no universo 
sertanejo, portanto, estando também presentes em letras de canções sertanejas. 
Figura 4: Recorte da lista de palavras com o item mulher destacado. 


E Word list (unsaved) 
File Edit View Compute Settings Windows Help 


N Word Freg. To Texts “o Dispersion| Lemmas| Set 


4.175 MUIE 14 0,02% 10 1,88% 0,52 
4.176 MUIEZADA 1 1 0,19% 0,00 
FEF; MUITA 14 0,02% 13 2 44% 0,63 
4.178 MUITAS T 7 1,32% 0,45 
4.179 MUITO 92 0,11% 62 1165% 0,78 
4.180 MUITOS 5 5 0,94% 0,40 
4.181 MULATA 2 2 0,38% 0,35 

1 1 0,19% 0,00 

TF 0,09% ag 7 33% 0,76 

26 0,03% 11 207% 0,60 
4.185 MULHERÃO 19 0,02% 2 038% 0,11 
4.186 MULHERENGO 2 1 0,19% 0,00 
4.187 MULHERES 7 5 0,94% 0,45 


Fonte: WordList. 


Conforme observa-se na Figura 4, o item lexical mulher ocorre 77 vezes (0,09%) no corpus. 
Por sua vez, a palavra mulata, filha de pai branco e mãe negra ou vice-versa (HOUAISS, 2009), 
variante da palavra mulher, aparece apenas duas vezes e, flexionada no plural, mulatas, aparece 
somente uma vez. 


Apesar da baixa frequência desses dois vocábulos, se levarmos em consideração outras 
palavras que também são usadas para se referir à mulher no corpus, como muié, muiezada, 
mulherada, é possível verificar a recorrente presença feminina nas letras que compõem esse 
corpus. Além disso, a análise das linhas de concordância permite observar o tratamento que 
é dado à mulher no corpus em questão, bem como examinar a prosódia semântica do item 
mulher. 


Após gerar as linhas de concordância para o item mulher e organizá-las em ordem alfabética 
a partir da primeira palavra à esquerda do item em questão, constatamos que as palavras que 
antecedem o item lexical mulher pertencem às seguintes classes gramaticais: artigo feminino, 
preposição, pronome, conjunção, verbo, adjetivos, numerais e alguns substantivos. Entre os 
pronomes, o possessivo minha possui uma frequência alta, ocorrendo 407 vezes (0,47%). 


Em uma das linhas de concordância, minha é seguido do substantivo mulher em: "hoje 
ao lado dos meus filhos e da minha mulher... , na letra da canção Jesus pintou com as mãos, 
interpretada por Marco Brasil. Em outros momentos, o possessivo minha é seguido dos 
substantivos vida, menina, paixão, pequena, amada, querida, entre outros vocábulos que 
sugerem a idealização da mulher, por quem o eu lírico demonstra dependência afetiva. Algumas 
dessas linhas de concordância estão apresentadas nas Figuras 5 a 8. 
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Figura 5: Recorte das linhas de concordância com minha vida em destaque. 


Concordance 


ni ga ma rs 


349 machucada Procurando salvação Dei a ela minha vida Fui afeto, fui saida Fui amante, fui 

350 | que errei... quero te reconquistar outra vez Amor da minha vida... ha vida... 

351 Era minha escolha preferida A vaga de amor na minha vida Você mas perdeu Quando inesperado 
352 meu “véio” se ele souber que eu vou levar Nessa minha vida largada uns 8 anos pra formar 

353 um ano que você se foi Refazendo um resumo da minha vida Vejo que tudo que construi não me 


Fonte: Concord. 


Figura 6: Recorte das linhas de concordância com minha pequena em destaque. 


Concordance 


276. inferno, A tua calma Eu sou teu tudo, Sou teu nada Minha pequena és minha amada Eu sou teu 

277 morrer Eu sei que parte do que eu passei Foi culpa minha porque eu deixei Que outro alguém me 
278 morrer Eu sei que parte do que eu passei Foi culpa minha porque eu deixei Que outro alguém me 
279 falta de você E se acaso eu não me conter e perder minha postura Não se acanhe, só me beije E me 
280 que sou galinha, que ando fora da linha Que a minha praia é a gandaia Que eu tenho cara de 

28 que sou galinha, que ando fora da linha Que a minha praia é a gandaia Que eu tenho cara de 


Fonte: Concord. 


Figura 7: Recorte das linhas de concordância com minha moça em destaque. 


Concordance 


DC 


230 Te abençoar, fortalecer Mais que um dever é a minha motivação Irmão amado eu reconheço teu 
231 cedinho Aviola, eu e deus Tudo que dá na tv minha muié qué fazê não mede as consequências 
32. palito As moças de hoje Eu não facilito... Eu mais a minha muié Fizemo combinação Eu vou no 

33. mostrar o meu desejo eu senti um beliscão, era minha muié feia torcendo a minha orelha me 

234 SABADO QUE VEM ELA FICA EU VOU EU MAIS A MINHA "MUIE" JÁ VI QUE NÓS "NUM" COMBINA 


Fonte: Concord. 


Figura 8: Recorte das linhas de concordância com minha menina em destaque. 


Concordance 


208 não apareceu Eu só quero você perto de mim Vem minha menina estou só Eu só quero um beijo seu 
209 menina estou só Eu só quero um beijo seu Vem minha menina estou só Eu só quero um beijo seu 
210. não apareceu Eu só quero você perto de mim Vem minha menina estou só Eu só quero um beijo seu 


211 menina estou só Eu só quero um beijo seu Vem minha menina estou só Eu só quero um beijo seu 
212 menina estou só Eu só quero um beijo seu Vem minha menina estou só Eu só quero um beijo seu 
213. não apareceu Eu só quero você perto de min Vem minha menina estou só Eu só quero um beijo seu 
214. menina estou só Eu só quero um beijo seu Vem minha menina estou só Eu só quero um beijo seu 
MME! naža amnacanas Pra nd mina sinanh nasba da naina llana minha manina anaba: nd Poa ad minea sima haiia aas 


Fonte: Concord. 


Retomando a análise das linhas de concordância, identificamos o vocábulo minissaia, 
definido pelo Houaiss (2009) como sendo uma saia muito curta que deixa parte da coxa à mostra. 
Apesar de esse vocábulo ter ocorrido uma única vez no corpus (Figura 9), ao ser associado com 
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a palavra mulher, apresenta prosódia semântica negativa, pois precede a expressão mulher 
toma sua linha”, sugerindo, no contexto da canção, que ela mude suas vestes, demonstrando 
uma tentativa de controle do homem sobre o corpo da mulher. Aqui, é importante lembrar que 
as marcas da oralidade estão presentes também na escrita, suprimindo sinais de pontuação 
que separam itens lexicogramaticais, como a vírgula no caso dos vocativos. Assim, numa 
transcrição conforme a norma-padrão, a construção seria: Minissaia, mulher! Tome sua linha. 


Figura 9: Recorte das linhas de concordância do item mulher. 


45 do João de Barro Não tem goteira... "Mini-Saia” Mulher toma sua linha Eu sou seu marido Tô 
47 sou o dono da moda Como mais do que soda É só mulher do meu lado 2 litros de whisky 20 caixas 


Fonte: Concord. 


A partir da reorganização das linhas de concordância em ordem alfabética com base 
no primeiro item à direita do nódulo mulher, identificamos o adjetivo namoradeira (mulher 
namoradeira). De acordo com o Minidicionário Escolar da Língua Portuguesa, o adjetivo 
namoradeira é definido da seguinte forma: moça jovem que gosta de namorar, que aceita 
facilmente a corte que se lhe faz (BUENO, 2018). Não discutiremos aqui os processos de formação 
da palavra namoradeira, o que poderá ser feito em estudos posteriores, mas, se levarmos em 
consideração valores socioculturais que reprovam o comportamento descrito na definição do 
dicionário, pode-se inferir que a prosódia semântica dessa associação seja negativa. 


Ao mencionarmos valores socioculturais em torno da palavra namoradeira, temos a convicção 
de que a discussão não se esgota aqui, pois são necessárias muitas outras ponderações, com 
testes de percepção acerca das palavras numa abordagem sociolinguística, o que faremos 
em estudos posteriores. Por enquanto, consideraremos a definição do dicionário sugerindo a 
prosódia negativa. 


Figura 10: Recorte das linhas de concordância do item mulher. 


47| Eo burro impacador Eu corto ele na espora E a mulher namoradeira Eu passo um ródo E mando 42 040 0 40 0 40 
48| Eoburroimpacador Eu corto ele na espora E a mulher namoradeira Eu passo um rodo E mando 42 040 0 40 0 40 
49 da medida Mas ela foi traida Mulher não trai, mulher não trai Mulher se vinga Elas se vingam de 112 0110 0110 0 110 
50| medida Ela foi traída, ela tá ferida Mulher não trai, mulher não trai Mulher se vingai Mulher se 233 0231 0231 0 231 
51 E ainda falam por ai que mulher näo manda em homem Manda sim! 110 3 0 5 0 5 
52 Não tem o que fazer E ainda falam por ai que mulher Não manda em homem Manda sim! 108 0106 0106 0 106 
53 , ela não passava da medida Mas ela foi traida Mulher não trai, mulher não trai Mulher se vinga 109 0107 0107 0 107 
54| não passava da medida Ela foi traída, ela tá ferida Mulher não trai, mulher não trai Mulher se vinga i 230 0228 0228 0 228 


Fonte: Concord. 


Continuando a análise dos itens à direita do nódulo mulher, identificamos item lexical 
verdadeira na seguinte construção: se perdeu a responsa, perdeu a mulher verdadeira. Se 
considerarmos a definição de verdadeiro como algo legítimo (BUENO, 2018), nesse caso, não 
se atribui à palavra uma carga positiva ou negativa, e sim neutra, pois atribui-se à mulher o 
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fato de ser a legítima (casada, legalmente falando). Contudo, se olharmos para o restante da 
construção: se a safada foi embora, então verdadeira, que está em contraste com safada, se 
confirma como uma característica positiva, enquanto safada, subentendendo mulher safada, 
sugere prosódia semântica negativa para o item lexical mulher. 


Figura 11: Recorte das linhas de concordância com mulher verdadeira em destaque. 


73 o coração Dessa mulher Pra conquistar uma mulher Tem que fazer o que ela quer Tem que 103 0101 0101 
74 do João de Barro Não tem goteira... "Mini-Saia” Mulher toma sua linha Eu sou seu marido Tô 235 0233 023 
75 atitudes bonitas Se perdeu a responsa! perdeu a mulher verdadeira Se a safada foi embora perdeu 138 0136 0136 


76 se voce quer aprender Como conquistar uma mulher Você precisa entender de carinho e de 10 08 08 


Fonte: Concord. 


Os procedimentos analíticos e os dados apresentados nessa seção evidenciam a 
produtividade da exploração do campo lexical relacionado à palavra mulher. Os pontos 
discutidos podem fornecer bases para levar reflexões e discussões referentes às prosódias 
semânticas do campo lexical referente à palavra mulher para a sala de aula, além de poderem 
basear discussões sobre igualdade de gênero e propostas de projetos colaborativos. A partir da 
experiência neste estudo, apresentamos no apêndice desse capítulo uma sequência didática 
que comporta os tópicos abordados. 


5 Considerações finais 


A partir da Lexicultura e por meio dos recursos da LC, esse estudo buscou analisar a prosódia 
semântica da palavra mulher e de itens que se associam a essa palavra. Nossas análises e 
reflexões culminaram na proposta de uma sequência didática com letras de músicas, que segue 
as orientações presentes no Currículo Referência da Rede Estadual de Educação de Goiás 
(GOIÁS, 2021) e que visa aprimorar o conhecimento metalinguístico dos alunos, bem como 
levantar discussões sobre a carga cultural presente no léxico e sobre equidade de gênero. 


Chegamos ao final deste trabalho com algumas constatações e reflexões importantes. A 
primeira é com relação à alta frequência de palavras não plenas (BIDERMAN, 1998) no corpus 
de estudo, em que as palavras mais frequentes da WordList são as classificadas como palavras 
instrumentais, como artigos, preposições, pronomes, conjunções etc. Sabemos que o estudo 
das classes gramaticais ainda gera dúvidas para muitos estudantes, muitas vezes, devido ao fato 
de eles não perceberem que o tempo todo estão falando, lendo, ouvindo palavras e que essas 
palavras pertencem a grupos (classes gramaticais). Neste sentido, uma sequência didática 
mostrando a proximidade entre o conteúdo de língua portuguesa e a rotina do aluno faz com 
que ele assimile melhor questões morfológicas, já que este conhecimento é essencial para 
os estudos morfossintáticos, tão exigidos em avaliações ao longo da vida estudantil. Partindo 
do entendimento de que minissaia é uma roupa curta, e da presença da expressão: Mulher! 
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Toma sua linha, concluímos que esta é uma palavra marcada culturalmente (BARBOSA, 2009), 
e que reforça a ideia de que a mulher não deve usar roupa curta, por isso, a tentativa do homem 
de controlar a roupa que a mulher deve usar. Ainda que estejamos falando de uma expressão 
ocorrida uma única vez no corpus, acreditamos que sua presença seja a cristalização de uma 
cultura em que a mulher ainda precisa se submeter ao controle do homem. 


Considerando os pontos analisados sobre a prosódia semântica relacionada ao item mulher 
nas letras de músicas que compuseram nosso corpus, consideramos produtivo levar essa 
análise de letras de música do gênero sertanejo para a sala de aula, tendo em vista abordar 
aspectos gramaticais e discutir questões sociais e culturais que envolvem os debates sobre 
gênero, buscando a conscientização de alunos e alunas para que possamos vislumbrar um 
futuro em que as mulheres tenham seus direitos respeitados. 
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| Apêndice - proposta de sequência 
didatica 


Objeto de conhecimento: classes gramaticais e prosódia semântica. 
Expectativa de aprendizagem: 


1) analisar o campo lexical das letras de músicas do estilo country; 

2) identificar os itens lexicais que se associam à palavra mulher; 

3) discutir em sala de aula o campo lexical ocupado pela palavra mulher nas letras de músicas 
e suas conotações positivas, negativas ou neutras. 


1º Momento: propor aos alunos uma atividade de pesquisa sobre o estilo musical country com 
a história do surgimento do estilo no Brasil e com a seleção de três letras de música desse 
estilo. A atividade será desenvolvida em sala de aula ou em casa, observando as possibilidades 
de acesso à internet dos alunos. 


2º Momento: apresentação oral dos resultados da pesquisa e da seleção das letras feita pelos 
alunos, solicitando que informem o nome, o artista e o motivo da escolha. 


3º Momento: identificação dos itens lexicais associados à mulher. Para esta atividade, será 
solicitado que os alunos encontrem a palavra e destaquem a primeira palavra que antecede 
mulher e a primeira depois de mulher. Caso a letra escolhida não tenha a palavra mulher, o 
aluno pode procurar sinônimos e se ainda assim ele não encontrar, ele deverá aguardar o 
próximo momento da aula. 


4º Momento: com o auxílio do professor, o aluno fará a classificação morfológica das palavras 
encontradas antes e depois de mulher. Neste momento, será solicitado ao aluno que anote 
a percepção dele quanto palavra (positiva, negativa ou neutra) e que anote se algum fator 
cultural contribui para essa percepção. 


5º Momento: com a mediação do professor, realizar um debate sobre o tema: igualdade de 
gênero. 


6º Momento: após o debate solicitando que os alunos se reúnam em grupos formados por 
meninos e meninas em igual quantidade, se for possível, conversem sobre como a comunidade 
em que eles vivem lida com questões de igualdade de gênero. Em seguida, elaborem juntos um 
documento que apresente estratégias para promover a igualdade de gênero na comunidade 
em que eles vivem. 
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/º Momento: a sequência didática será finalizada com a divulgação do documento para a 
comunidade escolar e consequentemente para a comunidade em que os alunos vivem. Os 
próprios alunos farão a escolha da mídia a ser utilizada para essa divulgação, se por meio de 
cartazes, panfletos ou digital, em redes sociais. 


Observações: a sequência didática poderá ser adaptada às condições do momento de sua 
aplicação devido ao contexto pandêmico, atendendo aos protocolos de segurança contra a 
Covid-19. 
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1 Introdução 


A sociedade brasileira é formada por um encontro étnico. Um encontro a partir do qual 
surgiram diferentes formas de representar a realidade em que vivemos. Assim, a identidade 
de nosso país, que se tece hoje frente aos nossos olhos, é pluriétnica, o que se escancara não 
apenas na formação do nosso povo, mas também, e muitas vezes de forma mais marcante, 
nas práticas sociais que realizamos em nossas interações diárias. 


Não há como negar que, embebido nas tradições asiáticas, europeias, africanas, árabes 
e indígenas, nosso país reflete uma heterogeneidade de natureza sócio-histórica que fez 
florescer algo singular no mundo: uma identidade multifacetada que comporta em sua formação 
elementos distintos e que os relaciona e organiza para a produção de uma cultura plural e única. 


Frente a essas práticas sociais heterogêneas que se formaram e ainda se formam em 
nossa sociedade, a Língua da Tabatinga presentifica-se na cidade de Bom Despacho - MG. 
As origens dessa língua remontam ao passado escravocrata de nosso país, que levou aos mais 
diversos cantos da nação a barbárie dos homens brancos contra pessoas negras. 


De acordo com Queiroz (1998), a Língua da Tabatinga (doravante LT) tem provável origem 
sudanesa, já que a maioria dos então escravizados que se estabeleceram com seus senhores 
em Bom Despacho eram provenientes da Vila do Ouro - Pitangui, antiga sede administrativa 
de Bom Despacho. Os sudaneses possuíam a tradição de trabalharem com mineração e foram 
explorados em larga escala durante o ciclo do ouro em Pitangui. 


Acrescidas às contribuições linguístico-culturais africanas sudanesas, somaram-se as 
contribuições da língua portuguesa brasileira local, resultando em uma língua verdadeiramente 
“mestiça;, a LT. Durante o estudo feito por Queiroz (1998), há 23 anos, foi precipitadamente 
previsto o desaparecimento desta língua. Contudo, em 2021, é possível notar que a LT não 
desapareceu. Ela se encontra cada vez mais viva e presente nas práticas sociais de linguagem 
que se realizam na comunidade bom-despachense. 


A importância da investigação apresentada neste capítulo reside na noção elementar, 
conforme Labov (2008), de que não há comunidades linguisticamente homogêneas, e que a 
heterogeneidade na formação das línguas é algo natural. Logo, o que se observa hoje em Bom 
Despacho faz parte da dinâmica das línguas, organismos vivos que se moldam ao mesmo tempo 
em que moldam a sociedade na qual se desenvolvem. Cabe, portanto, evidenciar que a chave 
do estudo proposto está na possibilidade de compreender cada vez mais sobre o processo de 
formação das línguas, avaliando as transformações no momento exato em que elas ocorrem, 
vivenciando concreta e diacronicamente o fenômeno da constituição de uma nova variedade 
linguística. 
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Como membro constituinte da sociedade bom-despachense, a partir de um mínimo 
conhecimento prévio da LT e tendo o português brasileiro como língua materna, a hipótese 
que surge e que impulsiona o presente estudo é a de que a LT concede à lingua portuguesa 
brasileira da cidade de Bom Despacho um alargamento lexical a partir da inserção de palavras 
próprias e específicas do léxico Tabatinga. Dessa forma, por influência histórica e social, a 
variedade linguística do português brasileiro existente na cidade de Bom Despacho agrega 
elementos típicos da variedade linguística Tabatinga, o que a torna única em nosso país. 


Além disso, há também a hipótese de que a inserção da LT nas práticas de linguagem da 
sociedade bom-despachense funciona como uma política de autoafirmação e resistência, 
garantindo a redução do preconceito linguístico e, também, a redução do preconceito social 
com a comunidade afrodescendente, a partir da qual a LT se originou. Isso demarcaria os motivos 
pelos quais, apesar de previsto no estudo de Queiroz (1998), tal língua não desapareceu, mas 
continua cada vez mais presente em Bom Despacho. Assim, a LT despertou nosso interesse, 
não pelo seu caráter diferente ou alegórico, mas pelo seu valor linguístico-cultural na formação 
da sociedade bom-despachense. 


Diante do exposto, este capítulo apresenta uma exploração inicial da LT à luz da Linguística 
de Corpus e amparada pela Sociolinguística Variacionista. Ademais, este estudo é de caráter 
corpus-driven, isto é, guiado por corpus. Reconhecemos que analisar e descrever a LT é pensar 
e produzir saberes sobre a formação linguística de uma variedade dialetal que representa o 
caráter multifacetado da sociedade brasileira e de sua língua. 


2 Fundamentação teórica 


A análise e descrição propostas têm como fundamentação teórico-metodológica a 
Linguística de Corpus e a Sociolinguística Variacionista. Tendo como objeto de estudo a 
LT, a Sociolinguística Variacionista concedeu bases para compreensão da relação língua x 
sociedade”. Por sua vez, a Linguística de Corpus (doravante LC) nos auxiliou, a partir de uma 
visão probabilística da linguagem, na observação e análise extensiva do objeto de estudo, 
amparadas por dados empíricos da lingua em uso. 


2.1 Linguistica de Corpus 


Berber Sardinha (2004) nos apresenta a LC como uma abordagem empirista da linguagem, 
que tem como ponto principal encará-la como um sistema probabilístico, tomando por base 
Halliday (1991). Partindo desse pressuposto, ela se contrapõe aos modelos racionalistas da 
linguagem, principalmente à linguística chomskiniana, visto que, na LC, o foco do estudo está 
no desempenho (uso) e não na competência. Dessa forma, a LC geralmente promove nos 
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estudos da linguagem um deslocamento, que deixa a teorização para um segundo momento 
e, como ponto de partida para a investigação linguística, utiliza-se de dados obtidos a partir 
da observação empírica da linguagem autêntica. 


Concebemos a LC não apenas como um método, mas também como uma corrente teórica 
de abordagem da língua. A esse respeito, Berber Sardinha (2004, p. 37) afirma que a LC é uma 
perspectiva, uma maneira de chegar à linguagem o que vem a corroborar nossa visão ampla 
a respeito dela. 


Para a análise da linguagem, a LC faz uso de ferramentas computacionais que auxiliam 
os linguistas a analisar e descrever o funcionamento linguístico. Citando Berber Sardinha 
(2004, p. 3), a Linguística de Corpus ocupa-se da coleta e da exploração de corpora [...]. Como 
tal, dedica-se à exploração da linguagem por meio de evidências empíricas, extraídas por 
computador”. Para além da análise estatística, a LC permite um tratamento qualitativo dos 
dados, visto que traz consigo a possibilidade de aliar ao exame do corpus a introspecção do 
pesquisador, conforme evidenciado por Novodvorski (2020). 


Isto posto, na análise da LT, a LC colabora efetivamente para a identificação de traços 
característicos e inerentes a essa variedade linguística, padrões de comportamento linguísticos 
e variações que só poderiam ser observados através das lentes da LC e que funcionam como 
evidências autênticas e factuais do funcionamento linguístico do objeto de estudo analisado. 
Colabora, ainda, para as análises sociais e culturais advindas do estudo da LT. 


2.2 Concepções de lingua/linguagem 


A linguagem humana, segundo Travaglia (2002), apresenta três possibilidades distintas de 
ser concebida. À primeira afirma ser a linguagem a expressão do pensamento. Segundo essa 
concepção, a expressão da linguagem se constrói internamente na mente humana, sendo sua 
exteriorização apenas a tradução do pensamento. É nesta concepção que se encontra a errônea 
suposição de que as pessoas não se expressam bem porque não pensam, compreendendo, 
assim, a linguagem como um ato individual independente das interações sociais e do contexto 
de produção. As leis que regem as criações linguísticas seriam, então, estritamente leis da 
psicologia individual. 


Ainda de acordo com Travaglia (2002), nessa primeira concepção, é presumido que haja 
regras para serem seguidas a fim de organizar o pensamento e, por conseguinte, a própria 
linguagem. Entre essas regras estariam as normas gramaticais, que se ligam intrinsecamente 
ao estudo da Gramática Tradicional. Sendo assim, as interações entre locutor e interlocutor não 
influenciariam a formação da linguagem, já que ela é vista como algo isolado das interações 
sociais, através da qual o homem representa, para si mesmo, o mundo. 
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A segunda concepção de linguagem concebe-a como um instrumento de comunicação, 
sendo sua principal função a transmissão de informações, já que a língua é considerada um 
código utilizado a fim de transmitir mensagens de um emissor a um receptor. Dessa forma, só 
há comunicação efetiva se emissor e receptor dominarem o código da linguagem. Nessa visão, 
o que ocorre entre os indivíduos durante a utilização de uma língua é apenas um processo de 
decodificação. 


A terceira concepção, finalmente, é aquela que encara a linguagem como forma ou processo 
de interação. Nesse prisma, o locutor age sobre o interlocutor, exigindo dele reações. Além 
disso, ambos interagem sobre o meio. Logo, o papel concedido à linguagem, nessa concepção, 
não é só exteriorizar pensamentos ou transmitir informações, mas sim interagir. 


A linguagem é, pois, um lugar de interação humana (BAKHTIN, 1999), no qual os usuários da 
língua criam um domínio cooperativo de interações, ocupando lugares sociais preestabelecidos 
pela sociedade. Desta forma, Bakhtin (1999, p. 123) afirma que 


[...] a verdadeira substância da língua não é constituída por um sistema abstrato de formas 
linguísticas, nem pela enunciação monológica isolada, nem pelo ato psicofisiológico de sua 
produção, mas pelo fenômeno social da interação verbal realizada através da enunciação ou das 


enunciações. À interação verbal constitui assim a realidade fundamental da língua. 


Assim, é perceptível que o ponto chave dessa concepção é, sem dúvida, o caráter dialógico 
da linguagem. 


Ainda neste sentido, é preciso considerar as contribuições da Linguística Sistêmico- 
Funcional (doravante LSF), baseadas nas concepções de Halliday (1978). Por caracterizar a 
linguagem a partir de uma perspectiva social, a LSF rompe com os paradigmas do formalismo 
linguístico e estuda a linguagem como uma atividade social, propondo um enfoque centrado 
nos usos da língua. 


Tal enfoque vai ao encontro dos pressupostos da LC, que, ao abordar a língua a partir de uma 
perspectiva empirista, centrada no uso, considera-a como um sistema probabilístico. Nesse 
sentido, Berber Sardinha (2004, p. 34-35) afirma que a linguística hallidayana possui uma “visão 
de linguagem que se encaixa perfeitamente nos preceitos da Linguística de Corpus e serve 
como arcabouço teórico maior no qual ela pode se incluir”. Quando se diz que a linguagem 
é vista como sistema probabilístico (BERBER SARDINHA, 2004), significa que a língua é vista 
mais como uma questão de probabilidade do que de possibilidade, ou seja, embora os traços 
linguísticos sejam teoricamente possíveis, eles não ocorrem com a mesma frequência. E O 
fato de essas diferenças de frequência não serem aleatórias é o mais importante. Para essa 
abordagem da língua(gem), há uma correlação entre as características linguísticas e contextuais. 
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Logo, o que se pode observar é que, ao adotarmos uma concepção linguística empirista, 
visto que fazemos uso da LC, aproximamo-nos de Halliday, estabelecendo uma relação entre 
características linguísticas e situacionais, e distanciamo-nos da linguística chomskyana. Segundo 
Berber Sardinha (2004, p. 30), a linguística chomskyana centra seus estudos na competência, 
nos universais linguísticos e em uma visão racionalista, que enfatiza a determinação de quais 
agrupamentos sintáticos são possíveis (permissíveis) dado o conhecimento que um falante 
nativo possui de sua língua”, evidenciando a língua como um sistema autônomo, mental, 
resultado de uma herança linguístico-genética. Enquanto isso, a LSF ressalta o caráter social 
da língua. 


As pesquisas desenvolvidas através da LSF centram-se na indissociabilidade entre o 
significado e a forma linguística, entre o léxico e a gramática, entre o contexto e a frase, apoiando- 
se sempre em dados linguísticos reais, o que se mostra adequado ao propósito deste projeto 
de pesquisa. 


2.3 Diversidade linguistica e sociedade 


O português brasileiro? descende da língua portuguesa europeia, mas aqui no Brasil tomou 
sua forma na complexa interação com as diferentes línguas com as quais manteve contato. 


A língua autóctone era aqui representada por um grande número de línguas indígenas 
brasileiras, às quais se somaram numerosas línguas africanas que abarcaram no Brasil no 
período da escravidão, e também as línguas que emigraram para o Brasil da Europa e da Ásia. 


O português brasileiro herdou das línguas indígenas palavras ligadas à fauna e à flora 
(abacaxi, mandioca, tatu, piranha), bem como nomes próprios e geográficos. Já a influência 
africana verificou-se em termos ligados à religião, à comida e à cultura africana (candomblé, 
iansã, feijoada, caçula, moleque, samba). Coube à cultura europeia o papel de introduzir no Brasil 
seus traços nas variedades linguísticas nordestinas (fato ocasionado pela invasão holandesa em 
Pernambuco no ano de 1630), além de possuir grande importância na constituição do português 
brasileiro, já que a língua oficial do Brasil descende, diretamente, da língua portuguesa de 
Portugal. Resta ainda ressaltar o considerável número de palavras asiáticas introduzidas no 
círculo linguístico através da tradição oriental nas lutas marciais, que possui grande número 
de adeptos no Brasil. 


Diante dessa realidade, e em consequência dela, há, no português brasileiro, um multilinguismo 
que deu origem a diversas variantes dialetais com estruturas profundamente modificadas. 
Essas modificações vão desde o campo semântico até o fonético e morfossintático. 


2 De acordo com Bagno (2007), quando dizemos que no Brasil se fala português, usamos esse nome simplesmente por comodidade e por 
uma razão histórica, justamente a de termos sido colônia de Portugal. Do ponto de vista linguístico, porém, a língua falada no Brasil já tem 
uma gramática. Por isso, os linguistas preferem usar o termo português brasileiro para ser mais claro e marcar bem essa diferença. 
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Ao reconhecer que a língua portuguesa brasileira apresenta muita diversidade e variabilidade, 
ressalta-se o pressuposto de que ela não apresenta uma única face. Ela melhor se identifica com 
um polígono multifacetado composto por uma gama incontável de contribuições linguísticas 
de povos indígenas, africanos, europeus, asiáticos e diversos imigrantes que em nosso país se 
instalaram e ainda se instalam, tendo em face o acolhimento de refugiados de diversas partes 
do mundo. 


Além disso, fatores como faixa etária, classe social e localização geográfica ou regional 
também contribuem para formação de uma língua que apresenta características inerentes e 
adequadas às necessidades dos usuários. Logo, todas as variedades linguísticas apresentam 
influências da sociedade na qual elas se constituíram. É nesse sentido que Labov (2008) afirma 
que o estudo de uma língua é fundamentalmente o estudo da cultura da qual ela é forma 
e produto. Ou seja, língua e sociedade estão ligadas entre si de um modo inquestionável. 
Além disso, o autor defende que não há comunidades linguisticamente homogêneas e que a 
heterogeneidade na formação das línguas é algo natural (LABOV, 2008). 


Neste estudo, a natureza variável da língua é um pressuposto fundamental, que o orienta 
e sustenta, tendo em vista que homogeneidade linguística é, segundo Bagno (2007, p. 17), um 
mito que pode ter consequências graves na vida social. Ademais, é importante lembrar que 
a língua portuguesa brasileira é marcada por uma heterogeneidade original e, por isso, a não 
aceitação da diferença é responsável por inúmeros e nefastos preconceitos sociais. Nesse 
aspecto, o preconceito linguístico tem efeito particularmente negativo. 


Dentre as variantes que surgiram no Brasil, ocorreu o aparecimento da LT, na cidade de 
Bom Despacho, no centro-oeste de Minas Gerais. Na seção seguinte, discorremos brevemente 
sobre esta variante linguística. 


2.4 O que é a Lingua da Tabatinga? 


A argila mole, untuosa e branca, foi o que deu origem ao nome do bairro da cidade de Bom 
Despacho (MG), Tabatinga. Contudo, sua cultura foi constituída pelos braços negros e fortes 
dos antigos escravizados. 


Localizado na periferia da cidade de Bom Despacho, Tabatinga é um bairro onde se abrigaram 
os escravizados libertos, já que a maioria deles veio para Bom Despacho na condição de cativos, 
juntamente com seus senhores. Assim, como ocorreu em todo o Brasil, após conquistarem a 
tão esperada liberdade, os ex-escravizados viram-se, apesar de livres, desabrigados. 


Dessa forma, muitos indivíduos resolveram fixar residência neste local, que posteriormente 
viria a ser o bairro Tabatinga. De acordo com relatos concedidos a mim, no ano de 2005, por 
uma das falantes da língua, descendente de um dos primeiros moradores do bairro, que foi 
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escravo da lavoura, Os escravizados libertos se instalaram no local a fim de trabalhar em um 
garimpo que havia em frente à sua atual casa. Descobrindo que ali não havia nenhum metal 
precioso, eles cavaram a terra branca do garimpo (a tabatinga) e barrearam as taperas que 
ergueram como moradia, passando, em seguida, a tecer cobertas e cortar capim para vender 
à confecção de colchões. 


Hoje ainda residem em Tabatinga muitos descendentes dos negros africanos que ali se 
instalaram no passado, deixando não somente suas lembranças, mas também sua cultura 
e sua presença através de diversas manifestações afro-brasileiras que ainda sobrevivem no 
bairro. Entre as manifestações culturais mais expressivas, podem ser citadas as religiões de 
matriz africana, o congado, que ainda move muitas pessoas em toda cidade a dançar por Nossa 
Senhora do Rosário, e, principalmente, a língua, que é formada por um léxico expressivo de 
uma língua africana e que se constitui como nosso objeto de estudo. 


Conforme apontado na seção introdutória, a LT é uma língua afrodescendente e tem 
provável origem sudanesa (QUEIROZ, 1998). Queiroz (1998, p. 100) afirma que a LT apresenta, em 
aspecto formal, uma série de características comuns aos pidgins, como “vocabulário reduzido, 
polissemia generalizada, frequente recurso à perífrase, redução de flexões e extrema variação 
fonética. Entretanto, do ponto de vista funcional, segundo a autora, ela se afasta dos pidgins, 
pois, de acordo com Castilho ([S.d.], [S.p.]), o pidgin é uma língua de emergência bastante 
rudimentar, desenvolvida por pessoas interessadas em trocas comerciais, característica não 
evidenciada na LT. Assim, Queiroz (1998, p. 100) admite a hipótese de que a LT “venha a ser 
o resultado da evolução de um pidgin ou de um crioulo” que teria existido efetivamente no 
período da escravidão. 


Contudo, a autora também observa que a LT muito se aproxima das línguas especiais pela 
função original que era a de ocultar o que os negros conversavam, impedindo que os senhores 
de escravos compreendessem a conversa e os castigassem. Queiroz (1998, p. 106) ainda afirma 
que a LT partilha com a gíria o fato de funcionar como sinal diacrítico que marca o grupo de 
negros da Tabatinga, e, por isso mesmo, segundo a autora, era alvo de preconceito linguístico. 


Atualmente, a LT se apresenta como uma língua de tradição e resistência, caracterizando a 
identidade social de uma comunidade. Ela é apreendida em situações de comunicação informal 
entre amigos e familiares. Assim, cada vez mais se dissemina entre as práticas de linguagem de 
toda comunidade bom-despachense. O léxico da LT já é utilizado por logomarcas empresariais 
de prestígio na cidade e região, além de canções. É possível observar a incorporação de palavras 
e expressões nas práticas de linguagem de toda a comunidade bom-despachense, deixando 
de ser segregada ao bairro de origem (QUEIROZ, 1998). 


3 Crioulo constitui-se a partir de adaptações de uma língua europeia por falantes de outras línguas, em geral africanas e asiáticas, com as 
quais os europeus entraram em contato por interesse mercantil (CASTILHO, [S.d.], [S.p.)). 
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Logo, nota-se que a LT, assim como qualquer outra língua, é um meio de interação, através 
do qual os indivíduos agem uns sobre os outros e estes com o meio, criando e modificando o 
contexto e sendo por ele influenciados. Nesse sentido, qualquer tentativa de buscar aprender 
apenas o invariável, o que muito se observa nos estudos tradicionalistas da língua, significa 
uma redução na compreensão do fenômeno linguístico de formação de uma língua. 


3 Métodos e procedimentos 


O corpus de estudo totaliza 5.024 tokens (itens) e 1150 types (formas), com uma densidade 
vocabular (type/token ratio) de 24%. Ele é oriundo de 10 entrevistas realizadas durante o ano 
de 2004. As entrevistas estavam gravadas em fitas magnéticas de áudio, recurso disponível na 
época em que os dados foram coletados, e foram transcritas ortograficamente. Portanto, este 
corpus de estudo constitui-se como um corpus oral sincrônico referente à variedade dialetal 
da LT. 


Os entrevistados eram 14 falantes nativos adultos que possuíam, no momento de coleta, 
entre 18 e 62 anos, sendo 11 deles do sexo masculino e 03 do sexo feminino. Ou seja, foram 
realizadas 10 entrevistas, nas quais houve 14 participantes, sendo que as entrevistas três, oito 
e nove tiveram, respectivamente, dois, dois e três participantes simultâneos. 


As entrevistas seguiram um roteiro previamente estabelecido, que foi montado a fim 
de obter o vernáculo dos entrevistados; sendo solicitado que falassem de fatos da infância, 
situações familiares marcantes, sobre como é a vida na cidade, situações engraçadas ou de 
risco. Logo, a entrevista sociolinguística direcionada pretendeu envolver afetivamente, durante 
a entrevista, os participantes, para que eles, ao falarem de suas experiências, esquecessem 
de monitorar a fala. Houve, portanto, uma redução dos efeitos do paradoxo do observador, já 
que as perguntas funcionaram como um gatilho e direcionaram a produção de sequências 
textuais que resultaram em um todo heterogêneo. 


A duração das entrevistas é divergente, já que ao ser utilizado o método da entrevista 
sociolinguística, houve liberdade na expressão dos falantes. Cada entrevista possui uma duração 
específica e, juntas, totalizam 1h45 57. A seguir, apresentamos a duração de cada uma delas, 
apresentado-as como T1, T2, T3 e assim por diante. 
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Quadro 1: Duração das entrevistas sociolinguísticas. 


Duração 


TOTAL 1h 4557” 


Fonte: Elaborado pela autora a partir dos dados da pesquisa. 


Conforme mencionado, como houve entrevistas com mais de um participante simultâneo, 
para a identificação dos turnos de fala, utilizamos a nomenclatura F + n° para garantir o sigilo 
quanto aos nomes dos participantes da pesquisa. Dessa forma, cada um dos entrevistados foi 
nomeado, por exemplo, como F1, F2, F3 e assim por diante. 


Após transcrição de todas as entrevistas, foi necessário converter cada um dos textos obtidos 
para o formato .txt, com a codificação ANSI, a fim de preparar o corpus para processamento 
pelo programa WordSmith Tools 4.0 (SCOTT, 2004). Por meio das ferramentas deste programa, 
geramos uma lista de palavras e, posteriormente, exploramos as linhas de concordância dos 
dois itens lexicais mais frequentes no corpus de estudo: cuete e ocaia. 


4 Resultados 


A lista de palavras foi gerada por meio da ferramenta WordList. A partir da análise dessa lista, 
organizada por ordem decrescente de ocorrência, foi possível identificar as palavras lexicais 
mais frequentes no corpus de estudo. Focalizaremos nossas análises nas duas mais frequentes: 
cuete (117 ocorrências) e ocaia (58 ocorrências). Para ilustrar essa primeira aproximação ao 
corpus, apresentamos na Figura 1 um recorte da lista de palavras, em que é possível identificar 
os itens cuete e ocaia. 
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Figura 1: Recorte da lista de palavras. 


| (19) Lista com todas as palsvras.ist 


| File Edit View Compute Settings Windows Hedp 


DO 591,17 10 
NO 581,15 90,00 
OCAIA 58 1,15 6 0,00 
PRA 58 1,15 80,00 
NUM 54 107 80,00 
AVURA 49 098 50,00 
AÍ 47 0,94 50,00 


troquency | alphabetical] statistics | flensmes | notes 
1,150 Ipem  CUETE 


Fonte: WordList. 


Após identificar as duas palavras lexicais mais frequentes, utilizamos a ferramenta 
Concord para gerar listas de concordância para esses itens lexicais. Analisando as linhas de 
concordância de cuete e ocaia, foi possível notar que uma parcela considerável das palavras 
lexicais utilizadas durante as entrevistas pertencem à LT, ao passo que as palavras gramaticais 
(tais como conjunções, artigos, preposições) são pertencentes exclusivamente à variedade 
da língua portuguesa brasileira falada na cidade de Bom Despacho. À guisa de ilustração, 
apresentamos a seguir um excerto extraído do corpus de estudo. Marcamos em negrito as 
palavras identificadas como pertencentes à LT. 


e O cuete caxô uns cureio que a ocaia dexô no conjolo”. 


Não poderíamos deixar de mencionar, assim como Queiroz (1998), que a LT possui uma 
estrutura sintática extraída da língua portuguesa, baseada no padrão SVO (sujeito, verbo, 
objeto). 


e Aío cuete caxô um tiquim de ingura na gibera” (...) 
v tO cuete= sujeito 
v Caxô= verbo 
v um tiguin de ingura= objeto 


Realizando uma leitura vertical, permitida pelas duas listas de concordância criadas, 
observamos como a utilização de substantivos próprios ocorre com baixa frequência na 


4 O homem comeu a comida que a mulher deixou em casa. 


5 Aí o homem pegou um pouquinho de dinheiro no bolso. 
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variedade da LT. Foram identificados apenas dois substantivos próprios, sendo eles Bené- 
Pião e Garça”. O primeiro deles nomeia um indivíduo e o segundo nomeia uma rua da cidade 
de Bom Despacho. 


Partindo desta constatação, notamos que em nenhum momento durante as entrevistas 
realizadas o sujeito falante fez uso de nomes próprios para se referir ao outro (32 pessoa do 
discurso), mesmo quando esse era personagem de sua narrativa. Em substituição aos nomes 
próprios, foram utilizados os substantivos simples da variedade da LT, cuete e ocaia, com comum 
recorrência à perífrase, que serve, no contexto analisado, para nominalizar e caracterizar o ser 
a quem o locutor se refere, facilitando a identificação do referente. A seguir, apresentamos 
mais alguns excertos extraídos das linhas de concordância: 


e Fl: ocai/ocaia curimba cum os cuete de coveraº. 
v ocaia= 32 pessoa do discurso, interlocutor, pessoa sobre quem o falante Fl conversa. 


v cuete de covera= 32 pessoa do discurso, o ser de quem se fala. Perífrase utilizada para 
se referir a médico. 


e F1: a maioria era cuete cafuvira”. 


v cuete cafuvira= 32 pessoa do discurso, o ser de quem se fala. Perífrase utilizada para 
se referir a negro. 


e tipura a ocaia do conjolo ao lados. 


v ocaia do conjolo ao lado = 32 pessoa do discurso, o ser de quem se fala. Perífrase 
utilizada para se referir à vizinha. 


e F3: cuete é prático, a hora que aperta pro ladu dele ele injira e prontu né?º 
v cuete= 32 pessoa do discurso, o ser de quem se fala. 


Ao longo das análises, percebemos que seria relevante realizar uma limpeza na lista de 
palavras inicial, gerando, portanto, uma segunda lista que possibilitaria identificar a quantidade 
exata de palavras da LT presentes no corpus de estudo. Esse procedimento nos forneceria um 
panorama probabilístico do percentual de palavras da LT que os membros da comunidade 
analisada utilizaram durante as entrevistas. Portanto, a limpeza consistiu na exclusão de todas 
as palavras pertencentes ao português brasileiro local da lista inicial, resultando em uma lista 
de palavras formada apenas pelo léxico da LT. 


6 Mulher trabalha com os médicos. 
7 À maioria era negro. 
8 Observa a vizinha. 


9 Homem é prático, na hora que aperta para o lado dele ele sai/corre e pronto, né? 
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A lista obtida após procedimento mencionado mostrou que 214 palavras utilizadas durante 
as entrevistas pertencem à variedade da LT. A partir do confronto entre o número de types da 
lista completa (1.150) e o número de types dessa segunda lista (214), observamos que o léxico 
da Tabatinga possui uma ocorrência, dentro da realidade linguística observada, de 18,6% do 
total de types. Na Figura 2, apresentamos um recorte dessa segunda lista de palavras. 


Figura 2: Lista de palavras do léxico da LT. 


m Sò palavras da Tabstinga lst 


File Edt View Compute Settings Windows Help 


8 

6 

5 

5 

, 6 

CONJOLO 22 044 6 
CAXA 19 0,38 6 
MATUABA 18 0,36 7 
TUÉ 16 0,32 5 
CATITA 15 0,30 4 
VIRIANGO 14 0,28 4 
OCORA 13 0,26 4 
TIPURA 11 0,22 5 
CAFUVIRA 10 0,20 5 
CAJUVIRA 10 0,20 4 


| stsímbes | flansmes | notes | 


Fonte: WordList. 


Tal constatação apresenta a relevância das palavras pertencentes à LT no discurso dos 
indivíduos da comunidade linguística analisada, visto que aproximadamente 1/5 das palavras 
por eles selecionadas para a realização de suas comunicações orais é decorrente do léxico da 
Tabatinga. Ademais, esses dados indicam a eventual necessidade de avaliação da relevância 
da LT para a variedade linguística do português brasileiro falado na cidade de Bom Despacho. 


É relevante ainda mencionar que, após uma análise detalhada dessa lista de palavras, 
observamos que, das 214 palavras, 154 pertencem à classe gramatical dos substantivos. Essa 
observação nos levou a outra constatação proveniente da observação e análise extensiva 
dessa lista: todos os substantivos da LT nomeiam entidades concretas do mundo real, ou seja, 
até o momento não foram identificados substantivos abstratos. 


Ao longo da análise de linhas de concordância geradas para outros itens lexicais da LT, outros 
pontos também nos atraíram a atenção, como a polissemia que acompanha os verbos. Com 
intuito de exemplificamos tal fenômeno linguístico, escolhemos trabalhar com o verbo tipurar 
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e algumas de suas acepções em seus contextos de ocorrência. Cabe lembrar que, para isso, foi 
preciso lematizar!” o verbo tipurar, para que nenhuma de suas flexões fosse desconsiderada. 


Figura 3: Lematização do verbo tipurar. 


w) Só palavras da Tabatinga.lst 


File Edit View Compute Settings Windows Help 


INGURA 42 0,84 Lemma forms o 
CAXÁ 28 06 mn 
CONJOLO 22 0,44 mrurá s 
CAXA 19  0,38/murano s 
MATUABA 18  0,36murava 7 
TUÉ 16 0,32 TPURÔ 10 
CATITA 15 0,30 
VIRIANGO 14 0,28 
OCORA 13 0,26 
| TIPURA 50 0,22 [10] 
CAFUVIRA 10 0,20 A 
CAJUVIRA 10 0,20 4 0,00] 


Fonte: WordlList. 


A seguir, apresentamos alguns exemplos extraídos das linhas de concordância obtidas a 
partir do verbo tipurar, bem como seus significados na língua portuguesa brasileira. 


e Aocaia falô que só tipurava cuxipa na Marcela”. 


Ao formar um fraseologismo ou agrupamento lexical (verbo + substantivo) com cuxipa 
(órgão sexual masculino e/ou feminino), o verbo tipurava assume o valor semântico de 
Tazer;, constituindo, no contexto, a expressão fazer sexo, transar”. 


e O cuete tipurava tudo quanto é ocaia!?. 


No exemplo acima, o verbo tipurar possui o valor semântico de Tlertar”, dar em cima, 
“passar uma cantada. 


e O cuete tipurô o marcanjo avura”. 


Já neste exemplo em questão, o verbo tipurar, tendo como complemento o substantivo 
marcanjo (cigarro), constrói o sentido de fumar”. 


10 “Um lema (‘lemma’) é a forma base de uma palavra; é aquela que encabeça um verbete, normalmente a forma morfologicamente mais 
simples (singular, infinitivo, etc.). O lema é o conceito organizador do dicionário (BERBER SARDINHA, 2009, p. 498). 


11 A mulher falou que só fazia sexo/transava na Marcela (em referência à dona da casa de prostituição). 
12 O homem flertava tudo quanto é mulher. 


13 O homem fumou muito. 
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e Aío cuete tipurô, tipurô, tipurô...” 


Nesta ocorrência, o verbo tipurar aparece em sua acepção mais comumente utilizada na 


LT, relacionando-se com o ato de pensar”, raciocinar”. 


e Os cuetim ia tipurano uns pros outro”. 


H mM H M 


Neste caso, o verbo se refere à ação de contar”, falar, espalhar uma informação. 


5 Considerações finais 


A iniciativa apresentada, por meio desta breve análise e descrição da LT, nos concedeu 
bases para que pudéssemos identificar algumas características inerentes a essa variedade 
dialetal, evidenciando que uma pesquisa mais abrangente se faz necessária, com vistas ao 
reconhecimento e valorização linguística e cultural dessa variedade linguística que se instalou 
em solo nacional em decorrência do encontro entre a língua portuguesa e uma língua de 
suposta matriz africana. 


Além disso, compilar um corpus da LT, que se apresenta predominantemente na modalidade 
oral, colabora para a preservação dessa variedade dialetal e também fornece bases para o 
estreitamento da relação entre língua, sociedade e cultura. 
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1 Introdução 


As metáforas estão presentes não só na linguagem cotidiana, mas também nas linguagens 
científica, filosófica e, principalmente, nos discursos jornalísticos. Estes, em seus relatos, 
auxiliam a compreensão de mundo a partir de utilizações metafóricas. Deste modo, é por meio 
das metáforas que nós conceptualizamos o mundo e compreendemos a maioria dos conceitos 
abstratos. 


Na Grécia Antiga, Aristóteles (1973, p. 462) definiu metáfora como a transferência do nome 
de uma coisa para outra, ou do gênero para a espécie, ou da espécie para o gênero, ou de uma 
espécie para outra, ou por analogia. A definição clássica, com bases aristotélicas, é a de que 
uma ou mais palavras são usadas fora de seu significado convencional para expressar um outro 
significado. Outro ponto clássico é que as metáforas se restringem apenas à linguagem poética, 
não sendo encontradas na linguagem convencional. Lakoff e Johnson (1980), Lakoff (1993) e 
Sperber e Wilson (2008) vão de encontro às ideias clássicas, afirmando que as metáforas não 
são somente utilizadas na linguagem poética, mas fazem parte da comunicação cotidiana. 


Conforme Berber Sardinha (2009), muita gente acredita que a metáfora é uma figura de 
linguagem e, como tal, é um acessório linguístico para embelezar a fala e a escrita. Como o 
exemplo clássico de Julieta é o sol”, de Shakespeare, em que alguém ser o sol aponta para 
uma metáfora de vida, luz, jovialidade. Berber Sardinha (2009, p. 39-41) esclarece ainda que: 


Atualmente, há outras visões que expandem o escopo de metáfora e a redefinem no conjunto das 
demais figuras de linguagem. Uma dessas visões é a cognitiva, em que a metáfora aparece como 
um recurso natural e essencial do ser humano para entender o mundo. Ela não mais significa 
apenas um recurso linguístico para ornamentar o discurso literário, mas fundamentalmente 
um tipo de processamento mental que nos permite entender conceitos abstratos, como amor, 
tempo, vida, entre outros. [...] A metáfora conceptual, conforme dissemos, exprime um conceito 
novo que surge a partir da aproximação de dois conceitos díspares. A metáfora linguística, por 


sua vez, são as palavras realmente empregadas no texto e na fala de modo metafórico. 


Lakoff e Johnson (2002 [1980], p. 45) sustentam que “a metáfora está infiltrada na vida 
cotidiana, não somente na linguagem, mas também no pensamento e na ação. Em outras 
palavras, mesmo que não tenhamos consciência de seu uso, elas fazem parte do nosso dia a 
dia e da maneira com que pensamos e falamos sobre o mundo ao nosso redor. No universo 
do esporte, o futebol, por exemplo, é conceitualizado metaforicamente a partir de conceitos 
da vida cotidiana, tais como, guerra, festa, negócios, religião etc. Isto posto, este estudo tem 
como objetivo analisar, com base nos pressupostos metodológicos da Linguística de Corpus 
(doravante LC), duas expressões metafóricas extraídas de nosso corpus de estudo. 
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O corpus desta pesquisa é constituído por textos de opinião e política disponibilizados nos 
sites de quatro importantes jornais digitais, dois brasileiros (Estadão e Folha de São Paulo) e dois 
argentinos (Clarín e Perfil). A escolha por jornais desses países decorreu, primeiro, por nossa 
formação na área de Letras em língua espanhola no Brasil, pela proximidade e relações entre 
Brasile Argentina, enquanto países vizinhos com linguas irmãs, pelo interesse em conhecer de 
que maneira e por meio de quais recursos linguísticos são metaforizados aspectos da política 
nesses países, para além da representatividade desses países no continente sul-americano. Por 
outro lado, a motivação pela temática da pesquisa está sustentada no trabalho de Novodvorski 
e Bevilacqua (2021), em que é abordada a metaforização da política pelo futebol, em corpus 
jornalístico monolíngue de espanhol rio-platense, a partir da seção de Humor político. 


Este trabalho, em primeiro lugar, obedece ao interesse pela presença de inúmeras 
representações metafóricas utilizadas na construção do discurso jornalístico de opinião e 
política, visto que reconhecemos, na leitura desses jornais, em especial os eletrônicos, a 
recorrência de metáforas na veiculação de informações. Em segundo lugar, este trabalho visa 
oportunizar, de maneira exploratória, uma aproximação ao universo das metáforas, por meio 
dos recursos da LC, tendo em conta que a metáfora está presente em todos os momentos de 
nossas vidas. Como salientam Lakoff e Johnson (2002), definimos a nossa realidade em termos 
de metáforas e, com isso, passamos a agir baseados nela. Por fim, visamos contribuir para os 
estudos da metáfora mediados pela LC e para os estudos linguísticos contrastivos entre língua 
espanhola e portuguesa. 


A problematização mais geral que abarca nossa pesquisa de base (mestrado em andamento) 
e norteia este trabalho é: que evidências de metaforização, no nível textual e cognitivo, podemos 
identificar num corpus jornalístico comparável bilíngue? Que fatos linguísticos são indícios 
de representações metafóricas no corpus? Quais são os mapeamentos implicados entre os 
domínios fonte e alvo, para a interpretação das metáforas conceptuais, a partir dos dados do 
corpus? Quais são as metáforas linguísticas mais recorrentes e que metáforas conceptuais 
realizam? 


Por meio de uma análise quanti-qualitativa, de cunho interpretativo, procuraremos responder 
a essas questões, no intuito de verificar o uso e funcionamento das metáforas integradas à 
vida cotidiana, de acordo com as teorias norteadoras. 


2 Fundamentação teórica 


A LC se dedica à criação e análise de corpora (plural latino de corpus), ou seja, conjuntos 
de textos e transcrições de fala armazenados em arquivos de computador. Segundo Shepherd 
(2012), ela consiste, simultaneamente, em uma nova metodologia, que se utiliza de textos 
naturais e das ferramentas da informática, e em uma nova abordagem para descrever a língua. 
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Ela vem mudando a maneira como se investiga a linguagem, nos seus mais diversos níveis, 
colocando à disposição do analista quantidades de dados antes inacessíveis. Um dos grandes 
agentes dessa mudança é a informática; sem ela, a LC contemporânea não poderia existir 
(BERBER SARDINHA, 2009). Além disso, ela é uma metodologia/abordagem que privilegia o 
empirismo e a autenticidade dos dados, analisando-os por meio de softwares e ferramentas 
computacionais, como o WordSmith Tools (SCOTT, 2012) e o AntConc (ANTHONY, 2019), que 
permitem lidar com técnicas quantitativas e qualitativas de análise. 


O presente trabalho também é orientado pela teoria da metáfora conceptual de Lakoff 
e Johnson (1980). De acordo com alguns estudiosos, como May (apud DEIGNAN, 2005), as 
metáforas são mais frequentes em comunidade e contribuem para um entendimento coletivo de 
mundo, pois elas ora escondem, ora salientam aspectos da realidade daquele grupo de pessoas. 
Sendo assim, pode haver evidências de que grupos sociais interpretam acontecimentos de 
formas distintas de outros. 


Kóvecses (2005) salienta que o contexto também é fator fundamental a ser levado em 
consideração no uso das metáforas. Para Silva (2017, p. 217-218): 


A história pessoal, profissão e interesses pessoais motivam as escolhas feitas para que 
determinados domínios-fonte sejam utilizadas para certos domínios-alvo em situações de 
comunicação. Dessa forma, as metáforas utilizadas na descrição da política poderiam variar não 
somente no que se refere ao individual, mas também ao cultural. Em um estudo comparativo, a 
análise das metáforas conceptuais e as respectivas expressões metafóricas por elas licenciadas 
em textos de língua portuguesa e em língua espanhola seria um indicador da influência cultural 
na seleção de expressões metafóricas, uma vez que seriam resultado de mapeamentos relevantes 


para determinadas civilizações e ideologias. 


Segundo Deignan (2005), a metáfora, de acordo com a Teoria Conceptual, segue alguns 
princípios básicos: (1) organiza o pensamento, (2) é central para a linguagem abstrata, (3) é 
baseada na experiência física e (4) é ideológica. A seguir, apresentamos os procedimentos 
metodológicos implicados no trabalho. 


3 Metodologia 


Para Gil (1989), o método científico é um conjunto de procedimentos intelectuais e técnicos 
utilizados para atingir o conhecimento. Para que seja considerado conhecimento científico, 
é necessária a identificação dos passos para a sua verificação, ou seja, determinar o método 
que possibilitou chegar ao conhecimento. Nesse sentido, a seguir, são apresentadas as etapas 
percorridas relativas ao planejamento e compilação dos corpora, bem como à análise, realizada 
por meio do Sketch Engine (KILGARRIFF et al., 2003). 


140 | 


3.1 Planejamento e criação do corpus 


O corpus de estudo deste trabalho é formado por textos publicados nas seções de opinião 
e política dos jornais digitais argentinos Clarín e Perfil, e dos brasileiros Estadão e Folha de São 
Paulo. A análise dos dados, realizada por meio da LC, foi baseada na fundamentação teórica 
existente na área de Metáfora Conceptual. 


A fim de alcançar os objetivos pretendidos, inicialmente, entramos em contato com 
alguns textos isolados, que também estariam no corpus, para uma aproximação e análise 
impressionística (BERBER SARDINHA, 2004), ou seja, para uma primeira impressão acerca 
dos textos. Posteriormente, adotamos a leitura hipertextual via linhas de concordância, que 
são fragmentos do conteúdo de vários textos analisados simultaneamente, com o propósito 
de encontrar indícios de usos metafóricos. 


Para a análise dos corpora, utilizamos o Sketch Engine (KILGARRIFF et al., 2003), doravante SE. 
Ele é um conjunto de ferramentas web que dispõe de diversos corpora já anotados e possibilita 
a criação de novos. O SE existe há mais de 15 anos e é bastante utilizado na Lexicografia, 
Linguística Computacional, Análise do Discurso e em pesquisas em Tradução e Ensino de 
Línguas. 


Apesar de hoje possuir diversas funções, sua origem está na ferramenta Word Sketch, criada 
em 2002 para auxiliar na elaboração de dicionários. Word Sketch é a síntese do comportamento 
gramatical e das colocações de determinada palavra (KILGARRIFF et al., 2014). Ao selecionar 
a colocação, também é possível, através da ferramenta Concordance, visualizar o contexto 
em que cada item ocorre. A Figura 1, a seguir, exibe o painel principal do SE: 


Figura 1: Painel do SE. 


TABLERO [For alo O o O M 2 
FOLHA CORPUS RECIENTES 

O Word Sketch © Diferencia Sketch Folha Portuguese moo S 

Colocaciones y combinaciones de palabra © Comparar dos palabras a través de colocaciones DGT, Spanish Spanish 57.311.149 E 

DGT, Portuguese Portuguese 53.050.705 B 

Portuguese Web 2011 (ptTenTen11) Portuguese 280.2302710 B 

e= Tesauro =Z Concordancia Timestamped JSI web corpus 2014-2016 English English 18.315.071.361 5 

=æ Sinónimos y palabras parecidas = = Ejemplos de uso en contexto English Web 2020 (enTenTen20) English 38.140.437.41 B 

British National Corpus (BNC) English 9.124547 B 

Brazilian Portuguese corpus (Corpus Brasileiro) Portuguese 871.117.173 B 

=e= Concordancia paralela |z Lista de palabras French Web 2017 (frTenTen17) French size $ 
26» Búsqueda de traducción =æ Listas de frecuencias 


= N-gramas 
N= Expresiones multi 


¿z Palabras clave 
= r e 
tipalabra (MWEs) =æ Extraccion de terminologia 


E Tendencias s) Text type analysis 
Análisis diacrónico, neologismos ki Statistics of the whole corpus 
Ea a 
bst camp 
- 4 = vê 
OneClick Dictiona Bilingual terms pd i TE 
A Borrador automático de siab 6 sil pics extractio An online course in using Sketch Engine. Registration open! 


REGISTRATION 


RESULTADOS RECIENTES ANOTACIONES 


Fonte: www.sketchengine.eu 


141 | 


Para a criação dos corpora, utilizamos a função disponibilizada pelo SE de criação de 
corpus a partir dos endereços inseridos, como, por exemplo, Nttps://mww.clarin.ccom/poliítica/, 
de modo que o SE só compilasse as seções relevantes para este estudo. Esse mesmo processo 
foi realizado com as seções de opinião e política de cada um dos quatro jornais. A Figura 2 
demonstra de forma mais detalhada o ambiente de criação do corpus. 


Figura 2: Criação do corpus a partir da web. 
CREAR CORPUS [aim = a] 
CORPUS: Clarin (spanisn 
2. ANADIR TEXTOS 
€ TEXTOS DE INTERNET 


Tipo de entrada E ; 
à Búsqueda web = 


O Las URL O 
O Sitio web 


https://wwnw.clarin.com/poliítica/ 
Nombre de carpeta &) Clarin 


Opciones de lista de bloqueo ~ 
Opciones de lista blanca 


Restricciones de tamaño ~ 


«4 Compilar cuando hay terminado C 


CANCELAR 


Fonte: www.sketchengine.eu 


3.2 Compilação e armazenamento dos 
corpora 


A partir da criação dos corpora, iniciamos sua compilação e armazenamento em formato 
txt. Para esta pesquisa, foram criados os seguintes corpora: 


(i) Clarin.txt (624.761 tokens e 533.281 types); 

(ii) Estadão.txt (1.433.965 tokens e 1.155.405 types); 
(iii) Folha.txt (2.255.939 tokens e 1.943.776 types); e 
(iv) Perfil.txt (1.003.772 tokens e 866.819 types). 


A Figura 3 mostra a compilação do corpus pelo SE. 
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Figura 3: Compilação do corpus. 
CREAR CORPUS [rora a |A 
CORPUS: Folha (Portuguese) 


3. COMPILAR 


Se está compilando x 


Fonte: www.sketchengine.eu 


De acordo com Berber Sardinha (2000), um corpus é considerado pequeno se possui menos 
de 80 mil palavras, médio se possui de 250 a 1 milhão de palavras e grande se possui 10 milhões 
ou mais palavras. Segundo Sinclair (1991), para ser representativo de uma língua ou variedade 
linguística, O corpus deve ser o mais extenso possível. 


Levando-se em conta a data dessas publicações e o crescimento da área da LC nos dias 
atuais, o corpus deste trabalho é classificado como de extensão média, entre 1 e 5 milhões de 
palavras. Contudo, para análise de metáforas, pela especificidade da análise, trata-se de uma 
extensão que possibilita inúmeras direções de pesquisa. 


Realizados todos os procedimentos de criação, compilação e armazenamento dos corpora; o 
passo seguinte foi analisar os dados utilizando recursos avançados da ferramenta Concordance 
do SE. 


3.3 Trabalhando com o Sketch Engine 


Com os corpora devidamente armazenados em arquivos .txt, geramos uma lista de palavras 
para cada corpus, organizadas pelo critério de frequência. As listas foram geradas por meio 
da ferramenta Wordlist do SE. 


Em seguida, partindo da observação dos itens lexicais mais frequentes, na ferramenta 
Word Sketch pudemos apreciar candidatos a prováveis usos metafóricos. Com isso, elegemos 
o item cabeça e seu correspondente em espanhol, cabeza. A palavra cabeça ocorre 71 vezes 
no Estadão.txt e 86 no Folha.txt. A palavra cabeza, por sua vez, ocorre 9/ vezes no Clarin.txt e 
129 no Perfil.txt. 
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3.4 Listas de concordância 


Com o objetivo de identificar usos metafóricos de uma forma mais detalhada, analisamos 
as concordâncias das palavras cabeça e cabeza, por meio da ferramenta Concordance. Esse 
processo analítico foi realizado em todos os corpora. A Figura 4 apresenta alguns resultados. 


Figura 4: Linhas de concordância de cabeça no corpus Folha.txt. 


CONCORDANCE ron aO © © Es 
lemma cabeça e 88 filter [41268037/41303064/%1337715/81384085/81388801]... o 81 E F 
39.08 per million tokens e 0.0039% õ 35.05 per million tokens e 0.0036% & 


asDocx=-=se--m(sc)+ox 


Details Left context KWIC Right context 


') doc&1505) de que transexuais não podem usar o banheiro feminino. </s><s> "Não abaixo a cabeça , continuo exercendo meu mandato, agora tentando falar na polidez que a Assemt 
i) doc&15101ias]. </s=<s> Pra mim derrotar aquele relatório é importante para que eu ande de cabeça erguida", disse. </s><s> "Seis meses é um tímido passo para validar a indignação 
') doc&15181s foram muito difíceis, os sintomas foram muito fortes, febre alta, muitas dores de cabeça , corpo dolorido e coriza", escreveu. </s><s> "Minhas atividades parlamentares se 
| doc&1532 lhou um meme do raio-x de um crânio com fezes, acompanhado da frase: "RX da cabeça de um fã de Bolsonaro". </s><s> Muitos posts dele tratam de supostas maquinaçê 
) doc&1539rquivado. "Não fomos nem processados. </s><s> Fiquei 14 anos com essa dor de cabeça ", disse. ? </s><s> Deputados que votaram a favor de Cury </s><s> Adalberto Fre 


') doc&1545: em comum: uma boina vermelha. </s><s> Outros usavam roupas camufladas da cabeça aos pés e tinham os rostos pintados de verde. </s=<s> As insígnias plugadas às ri 


) doc&1547:a do PSDB —do jeito típico do partido, com o presidenciável João Doria pedindo a cabeça de Bolsonaro e a sigla marcando reunião para debater o caso, com a previsível of 
i) doc&1572 ma ação no Senado, fundado no artigo 52 da Constituição, o mundo caina minha cabeça - </s><5> Quando uma pessoa em um inquérito no fim do mundo me bota lá ningL 
:) doc&15753> Bolsonaro pegou o chapéu de vaqueiro, uma das marcas de Valdemiro, pôs na cabeça e depois jogou o adereço para o público. </s><s> Prometeu voltar à Marcha para . 
) doc&1577 /s><s> A PM é composta por quase 90 mil pessoas na ativa. </s><s> São 90 mil cabeças que pensam diferente, mas que têm como referência a própria instituição da PM d 


i) doc&1727 spares. </s><s> Fernando Collor (então no PRN) viu 75% da população pedir sua cabeca às vésperas da abertura dos procedimentos na Câmara, em setembro de 1992 —e 


i) doc#1729:aixam no critério de comparação por não terem sido eleitos de forma direta como cabeça de chapa a um primeiro mandato. </s><s> A turbulência teve novos capítulos, con 


dddd d II O E 


Fonte: www.sketchengine.eu 


Para o presente estudo exploratório, considerando a necessidade de se fazer um recorte, 
nos limitamos às análises das unidades fraseológicas” pedir a cabeça e cabeça tem que rodar”, 
bem como de seus correspondentes em espanhol. Pelo fato de terem ocorrido nos corpora 
de ambas as línguas, essas unidades possibilitam uma perspectiva de análises em contraste, 
inclusive para conferir se se trataria de uma mesma metáfora conceptual. 


4 Resultados e discussão 


Após a análise das linhas de concordâncias geradas para todos os corpora, apresentamos 
uma amostra dos trechos que contêm as unidades fraseológicas focalizadas neste estudo: 


a. Jornal Clarín — Más allá del llamado de la vicepresidenta, el kirchnerismo duro venía 
pidiendo la cabeza de Guzmán... (Para além do chamado da vicepresidente, o kirchnerismo 
duro vinha pedindo a cabeça de Guzmán...); 


b. Jornal Perfil - Luego que el oficialismo perdiera la elección Primaria, expresó: Cuando el 
pueblo pide sangre, alguna cabeza tiene que rodar ante el enojo de la gente (Logo que o 
oficialismo perdesse a eleição primaria, expressou: Quando o povo pede sangue, alguna 
cabeça tem que rodar diante da indignação das pessoas); 


2 "[...] as unidades fraseológicas (UFS) —- objeto de estudo da fraseologia — são unidades léxicas formadas por mais de duas palavras gráficas 
em seu limite inferior, cujo limite superior se situa no nível da oração composta. Estas unidades se caracterizam por sua alta frequência 
de uso, e de co-ocorrência de seus elementos integrantes; por sua institucionalização, entendida em termos de fixação e especialização 
semântica; por sua idiomaticidade e variação potenciais; assim como pelo grau em que se dão todos estes aspectos nos diferentes tipos” 
(CORPAS PASTOR, 1996, p. 20). 
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c. Estadão — Internautas compartilharam o vídeo alegando que a PM marchava rumo ao 
Palácio do Governo pedindo a cabeça do governador baiano, Rui Costa (PT); 


d. Folha — “Saindo do campo da esquerda, a quimérica solução agora está na boca do 
PSDB - do jeito típico do partido, com o presidenciável João Doria pedindo a cabeça de 
Bolsonaro... 


Inicialmente, destacamos que “pedir a cabeça ou cabeça tem que rodar”, segundo 
o Dicionário Brasileiro de Fraseologia (SILVA, 2013) e o Dicionário UNESP do Português 
Contemporâneo (BORBA, 2005), referem-se ao ato de solicitar/pedir uma punição para alguém. 
Essas unidades fraseológicas originam-se do direito de executar ladrões e outros criminosos 
concedido aos nobres pela Coroa francesa no século XVIII. 


Todos os exemplos apresentados revelam situações abstratas da política, metaforizadas 
por meio da imagem mais concreta de uma punição por meio de uma situação extrema que 
envolve a execução de alguém por decapitação, com uso de guilhotina. O pedir a cabeça ou 
rolar cabeça, no âmbito político, significa a destituição do cargo. 


Nas referidas expressões metafóricas, os mapeamentos que envolvem o agenciamento do 
domínio-fonte, a decapitação, para a compreensão do domínio-alvo, demissão do cargo ou função, 
auxiliam no entendimento da mensagem. A inferência da metáfora conceptual que decorre 
das expressões focalizadas é: DEMISSÃO DE CARGO OU FUNÇÃO É UMA DECAPITAÇÃO. 


Poderíamos discutir um pouco mais sobre as demais unidades fraseológicas encontradas 
nas listas de concordância das palavras elegidas, mas, devido à limitação de espaço neste 
capítulo, passemos às considerações finais. 


5 Considerações finais 


O objetivo desta análise foi explorar corpora jornalísticos comparáveis em espanhol e em 
português, no intuito de verificar evidências de metaforização, no nível textual, a ponto de 
alcançar a inferência metafórica conceptual no plano cognitivo. Por meio de duas unidades 
fraseológicas formadas pelo item lexical cabeça + verbo, identificados nos corpora de estudo, 
constatamos tanto as metáforas linguísticas quanto as conceptuais. 


Aplicando os pressupostos da LC, apoiados na abordagem do estudo da metáfora, 
desenvolvida inicialmente por George Lakoff e Mark Johnson (1980), e fazendo uso do conjunto 
de ferramentas do SE, foi possível identificar fatos linguísticos que apresentam indícios 
metafóricos, mapear os seus domínios e interpretar suas metáforas conceptuais. 
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1 Introdução 


Quando tratamos de posicionamento - especificamente no tipo textual dissertativo- 
argumentativo, ou redação estilo ENEM, como denominamos — há um detalhe importante que 
precisa ser considerado: a construção da tese no conjunto textual deve ser o mais impessoal 
possível. Diante dessa questão, é válido analisar como o produtor do texto (chamado de 
candidato num processo de seleção como o do ENEM) se posiciona de modo impessoal, ou 
seja, sem o uso da 12 pessoa do singular ou da 12 pessoa do plural, como é comum nas demais 
redações argumentativas opinativas. 


Nesse tipo de redação, é possível construir a tese de modo que o autor se posicione por 
meio de ideias, de fatos e de outras opiniões sem tornar a pessoalidade o ponto primordial de 
sua construção discursiva e sem deixar sua individualidade, subjetividade e personalidade de 
lado. Isso, por sua vez, é desafiador para os alunos do Ensino Médio, pois estão acostumados 
a produzirem seus textos se posicionando de modo mais pessoal, como no caso do artigo de 
opinião ou do debate escrito, por exemplo. 


Nesse contexto, o presente capítulo objetiva investigar, de modo sucinto, a presença de 
elos coesivos formados por agrupamentos específicos que indicam a impessoalidade dos 
autores na construção de teses das redações estilo ENEM. O corpus explorado nesta análise 
é composto por sete redações estilo ENEM que alcançaram nota 1000 (nota de referência) 
neste exame, totalizando 1.978 tokens e 3/3 types. As redações foram retiradas de jornais on- 
line e da Cartilha do Participante de cada ano de estudo. Para auxiliar na análise do corpus, 
lançamos mão do WordSmith Tools 6.0 (SCOTT, 2012), doravante WST. 


2 Fundamentação teórica 


Nesta seção, são abordados alguns conceitos básicos deste estudo. A priori, esclarecemos 
o que é a coesão, aspecto importante ao se analisar linguisticamente a argumentação. 
Posteriormente, abordamos a tese na dissertação-argumentativa e sua relação com a 
argumentação. Por fim, introduzimos a metodologia/abordagem da Linguística de Corpus. 


2.1 Linguistica Textual: coesão 


A Linguística Textual é uma subárea da Linguística que estuda a constituição dos textos. 
Alguns dos elementos textuais abordados dentro da Linguística Textual é a coesão. Tal elemento 
explora a utilização de elos coesivos na compreensão do texto. 


Conforme Koch (1994), a coesão pode ser dividida em: referencial ou remissiva e sequencial 
ou de sequenciação. 
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Chamo, pois, de coesão referencial aquela em que um componente da superfície textual do texto 
faz remissão a outro(s) elemento(s) nela presentes ou inferíveis a partir do universo textual. 
Ao primeiro, denomino forma referencial ou remissiva e ao segundo, elemento de referência ou 
referente textual (KOCH, 2008, p. 31, grifo da autora). 


A coesão sequencial diz respeito aos procedimentos linguísticos por meio dos quais se estabelecem, 
entre segmentos do texto (enunciados, partes de enunciados, parágrafos e sequências textuais), 
diversos tipos de relações semânticas e/ou pragmáticas, à medida que se faz o texto progredir 
(KOCH, 1994, p. 53). 


A coesão referencial e a sequencial podem ser resumidas como diferentes maneiras de 
se retomar elementos textuais a fim de evitar repetições e tornar o texto mais fluido, além de 
propiciar maior entendimento, por parte do leitor, das ideias que ocorrem em sequência, de 
modo ordenado e bem pensado. 


Quando se analisa redações dissertativo-argumentativas, verifica-se que a base para a 
compreensão textual está na utilização e na diversidade desses elos coesivos, os quais são 
fundamentais para dar seguimento às partes essenciais do texto, que são: a introdução, o 
desenvolvimento e a conclusão das ideias, com base em um tema preestabelecido. 


Ao se estudar a composição dos argumentos, vê-se o quanto os elementos coesivos auxiliam 
na organização das informações a serem apresentadas, visto ser essencial mostrar estratégias 
argumentativas plausíveis que fundamentam o ponto de vista do autor, o qual é candidato à 
vaga em uma universidade. Essas estratégias são realizadas por meio das escolhas lexicais 
feitas no decorrer do processo de escrita. À guisa de exemplificação, o uso de “portanto” ou 
logo” é feito para indicar a conclusão de uma ideia e ajuda o leitor a saber que se trata de uma 
finalização do raciocínio, seja na argumentação ou na conclusão do texto. Outro exemplo seria 
quando há contra-argumentação ou refutação de alguma informação, sendo preciso lançar 
mão de algum elemento que apresente essa ideia, seja uma locução adverbial, uma conjunção 


ou um advérbio, como: Entretanto, Todavia e até mesmo Mas, os quais são utilizados para 
contrariar a ideia do enunciado anterior. 


2.2 À construção da tese e da argumentação 
no texto dissertativo-argumentativo 


Do grego thesis, a tese significa proposição intelectual. É basicamente a ideia central, a ideia- 
núcleo, o ponto de vista, a opinião, o posicionamento crítico do autor, portanto, subjetivo, em 
relação a determinado tema ou assunto proposto. Porêm, quando se trata do texto dissertativo- 
argumentativo, essa proposição deve ser elaborada de modo mais objetivo e impessoal possível, 
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visto ser uma exigência desse tipo de texto a apresentação das ideias do candidato sem o uso 
da 12 pessoa, seja do singular ou do plural. Ou seja, é preciso se posicionar em relação ao que 
pensa sobre o tema em foco, sem explicitar que é esse o seu posicionamento. Então, como 
fazê-lo? 


Em primeira análise, é preciso entender que, desde o início da humanidade, os indivíduos 
utilizam-se da linguagem para se comunicar, expressar suas opiniões e modificá-las em 
determinado momento quando se adquire mais sabedoria. Dessa maneira, por meio da interação 
no corpo social, se aprende com o outro a trocar opiniões e a argumentar sobre aquilo que se 
defende. O ser humano precisa dessa interação constante com o outro para criar suas próprias 
opiniões. Diante disso, é preciso condicionar o ponto de vista ao interlocutor, ou melhor, ao 
emissor da mensagem que está sendo apresentada, já que ele opina sobre o que pensa, reflete 
e acredita. Depois, ele formaliza essas informações por meio das palavras, sejam escritas ou 
faladas. Desse modo, o emissor ou o criador ficam atrelados às ideias que apresentam, por 
meio das escolhas textuais que expressam sua subjetividade. 


No entanto, na construção discursiva há muitas formas de se expressar determinada ideia, e 
uma delas é expor outros posicionamentos vinculados ao posicionamento inicial do interlocutor, 
para a relação entre suas palavras e as dele fazer sentido, ornando posicionamentos em uma 
só frase, em uma ideia completa do que se pensa com base em fatos, opiniões e ideias de 
outrem. Assim, ao se construir a tese com base em outras ideias já pensadas e fatos analisados, 
consegue-se produzir um posicionamento sem necessariamente condicionar o uso da 1º 
pessoa, visto ser uma ideia consumida por outras ideias e fundamentada em argumentos 
que serão retomados no desenvolvimento do texto dissertativo, local mais indicado para essa 
fundamentação. 


Quanto ao processo de argumentação, há um problema pontual cunhado por Pêcora (1992) 
que reflete bem essa construção necessária de ideias da produção escrita, a argumentação 
do dever, como explicita: 


A argumentação do dever se esgota nela mesma, isto é, na referência a um padrão “a priori, uma 
razão oculta e acima do texto, que condena ou aprova esta ou aquela conclusão. Aliás, quando se 
fala em nome do dever, tudo é conclusão: o texto se fecha em torno de algumas noções veladas 
que decidem sobre a sorte do tema; ou melhor, retomam uma decisão anterior. O efeito básico 
desse tipo de argumentação é, paradoxalmente, a suspensão da criação de argumentos pelo 
texto. Em termos mais gerais, poder-se-ia dizer que o seu efeito é o de descaracterizar o ato 
de linguagem. Ao receber a tarefa de criar os próprios argumentos, de compor um texto capaz 
de, pela própria especificidade, agir de modo a convencer o seu interlocutor, o aluno tende a 


interpretá-la de modo a fazer inveja a um escoteiro (PÉCORA, 1992, p. 100, grifo do autor). 
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Pécora (1992) ainda explica que, basicamente, o que se faz na produção escrita é: 


[...] reduzir o seu texto ao enunciado de uma ordem - na qual, com certeza, ele não tem lugar 
como sujeito. Ou seja, essa ordem instaurada pela noção de dever, quando não é simplesmente 
um nome para a ausência de nexos entre as partes do texto, não passa de eco mais ou menos 
fragmentário de outras ordens, enunciadas por padrões que preexistem a seu usuário e que 
independem desse texto em particular — portanto, que são incapazes de representar marcas de 


uma relação interpessoal (PÉCORA, 1992, p. 100, grifo do autor). 


Diante disso, percebemos o quanto o processo de escrita é árduo e pressupõe um modo 
mais aceitável de se construir ideias nesse tipo de texto cobrado em processos seletivos. 
Assim, chegamos à conclusão de que é possível fundamentar argumentos de modo objetivo, 
impessoal e, portanto, menos subjetivo e pessoal, visto ser padronizada a forma de se construir 
argumentos na dissertação-argumentativa. E para comprovar essa ideia, é válida a análise de 
um corpus como o deste estudo, pois, assim, é possível compreender de forma mais assertiva 
a constância dessa moldagem de escrita tão própria desse tipo de texto. 


2.3 Linguistica de Corpus 


A Linguística de Corpus (doravante LC) é uma metodologia/abordagem que prevê o trabalho 
com conjuntos de textos digitais. Ao usarmos tal metodologia/abordagem, contamos com 
o auxílio de programas e ferramentas computacionais, visto que geralmente lidamos com 
uma quantidade de textos que dificultaria análises manuais. Esses textos são coletados e 
organizados de acordo com os critérios de cada pesquisa. É válido ressaltar que, embora a 
grande quantidade de textos seja algo marcante na LC, ela é uma metodologia/abordagem 
que não se restringe ao aspecto quantitativo, mas que, em especial, também dá suporte para 
análises qualitativas, sendo, portanto, usada em pesquisas de natureza quali-quantitativa. 


Para o presente trabalho, a LC é fundamental, pois torna mais produtiva a análise textual e 
a apresentação dos aspectos da construção discursiva de modo mais esclarecedor ao leitor. 
Nesse sentido, com o intuito de facilitar a análise do corpus, utilizamos o WST 6.0 (SCOTT, 
2012), definido como um conjunto de ferramentas integradas destinado à análise linguística. 
Esse software permite fazer análises baseadas na frequência e na coocorrência de palavras em 
corpora, conforme explicita Berber Sardinha (2009). Especificamente, utilizamos as ferramentas 
WordList e Concord, cujas funções são apresentadas por Berber Sardinha (2009, p. 8): 


e WordList: produz listas de palavras contendo todas as palavras do arquivo ou arquivos 
selecionados, elencadas em conjunto com suas frequências absolutas e percentuais. Também 
compara listas, criando listas de consistência, onde é informado em quantas listas cada palavra 


aparece. 
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e Concord: realiza concordâncias, ou listagens de uma palavra específica (o nódulo, node word ou 
search word) juntamente com parte do texto onde ocorreu. Oferece também listas de colocados, 


isto é, palavras que ocorreram perto do nódulo. 


Diante das informações supracitadas, com o auxílio do WST, é possível analisarmos as 
palavras que são usadas em um corpus, a frequência de cada uma delas, o seu posicionamento 
nos textos do corpus, as escolhas lexicais próximas a elas, os agrupamentos, com quais temas 
ou assuntos associam-se com maior frequência, em quais contextos linguísticos se encontram, 
dentre outros aspectos. E é a partir dessas informações que o pesquisador subsidia suas 
análises sobre o uso e o comportamento da língua. 


3 Metodologia 


Para o desenvolvimento desta análise, foi preciso preparar o corpus de redações e depois 
fazer uma breve descrição e análise das redações para a seleção de teses. 


A primeira parte do trabalho foi selecionar as redações cujas notas foram máximas no ENEM 
dos anos de 2011 a 2021. Para isso, os textos foram copiados e transferidos para arquivos .docx, 
do Microsoft Word. Em seguida, salvamos em formato .txt, que é o formato mais produtivo no 
WST. Depois, revisamos o corpus de redações em sua totalidade, por meio de testes. 


A segunda parte compreende o processo de descrição e de análise do corpus de redações, 
cujo intuito foi identificar as teses apresentadas pelos autores das redações. Assim, utilizamos 
O corpus para: 


a) Verificar se a tese é apresentada sempre na introdução, local mais adequado para se 
compor, conforme os critérios de correção desse tipo de redação; 


b) Interpretar e descrever os elos coesivos que indicam a impessoalidade na construção 
da tese. 


4 Analises preliminares 


A título de análise, ilustraremos dois exemplos de redações dos sete textos que foram 
submetidos ao WST. Como mencionado anteriormente, todos os textos em análise são de 
redações cujas notas foram 1000 no ENEM. 


Inicialmente, foi feita a leitura da lista de palavras organizada em ordem de frequência, 
gerada pela ferramenta WordList, em busca de elos coesivos nos sete arquivos de redações nota 
1000. Tal busca resultou na identificação de porém (conforme consta na Figura 1), conectivo 
geralmente utilizado para indicar oposição à ideia anterior. Isso nos chamou a atenção, pois 
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nos mostra que, na elaboração de ideias, o autor/candidato refutou algum aspecto fazendo uso 


desse elemento coesivo, algo bem comum na construção de teses, proposições, bem como 


na argumentação desse tipo de texto. 


Figura 1: Lista de palavras. 


WordList 


File Edit View Compute Settings Windows Help 


H Word Freg. J Texts 


3 Lémmas Sel 


123 DESSES T 0410 5 25.00 
124 DEVEM 7 010 6 30.00 
125 DIANTE 7 040 5 25.00 
126 EDUCAÇÃO T 0:10 5 30,00 
127 ENTÃO 7T 01 T 35.00 
128 GARANTIR T 010 T 35.00 
129 HÁ 7 010 6 25.00 
130 HOJE T 010 6 30.00 
131 INDIVIDUOS 7 0.10 6 30.00 
132 MUITOS 7T 040 5 25.00 
133 NECESSÁRIO 7 0,10 6 30.00 
14 — PORÉM 7 010 5 30.00 
135 SEUS 7 010 6 3000 
136 TAIS T 010 5 30.00 
137 TER 7 010 6 30.00 
138 ATENÇÃO 5 0.09 4 20.00 
139 CADA 5 003 5 2500 
140 CIDADÃOS 5 0.09 6 30.00 
141 CONSCIENTIZAÇÃO 5 0.09 4 20.00 
142 DESENVOLVIMENTO 5 0.09 4 20.00 
143 DEVIDO b 0.09 6 30.00 
| frequency | alphabetical statistics filenames notes 
1.978 entries Row 134 PORÉM 


Fonte: WordList (dados da pesquisa). 


Em seguida, geramos linhas de concordância para o conectivo porém na ferramenta Concord 
(Figura 2) e observamos que esse elemento coesivo, de fato, seguiu sua função de oposição 


à ideia anterior apresentada. Contudo, ainda era necessário verificarmos se isso ocorria no 
início do texto, mais especificamente na introdução, local mais indicado para a apresentação 


da tese, ou em outras partes do texto, como desenvolvimento ou conclusão. Para fazer essa 
análise, expandimos as linhas de concordância na própria ferramenta Concord (Figura 3). 


Figura 2: Linhas de concordância com porém. 


ES Concord 

File Edit View Compute Settings Windows Help 
N Concordance Set Word 3 
1 considerável no número de acessos. Poròm, um ponto importante a ser 162 
z para exercer determinada atmdade. Porém, conduzir um carro é uma 126 
3 de um ou dois copos de cerveja. Porém, o nsco de acidente existe e, 270 
4 da cultura de diversas cmilizações. Porém, com o surgimento do 16 
5 como instrumento de conscientização, porém sua efetivação encontra 117 
5 das maramilhas do mundo modemo. Porém é preciso cuidado ao lidar com 3T 
T do número de acidentes de trânsito. Porém, sua efetmidade completa só 242 


Fonte: Concord (dados da pesquisa). 


Ser Sem Par: Pare Heo Heo Sec Sec 


713º 0508 
7 6% O 328 
9 133 0 743 
1 113 05% 
d 353 O 348 
1178 01h18 
14 175 0 748 


Fie Dat 
O 50% ENEM NOTA M 2021/set/26 0l 
O 323 ENEM NOTA M 2021/set/26 ül 
O 745 ENEM NOTA M 2021/set/26 0l 
0 5% ENEM NOTA M 2021/set/26 0l 
O 345 ENEM NOTA M 2021/set/26 0l 
O 11% ENEM NOTA M 2021/set/26 01 
O 745 ENEM NOTA M 2021/set/26 0l 
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Figura 3: Arquivo de redação - texto 1. 


PF CAUsersiroseniDesktopiROSENA? - CORPUS ENEM NOTA MILUCORPUS TXT ENEM NOTA MIL TODOSMENEM NOTA MIL - 13 - D6,trt = 0 X 


File Edit View Compute Settings Windows Hep 


«Autor(a): Beatriz do Nascimento Carvalho> 

«Titulo: Trânsito inequacional> 

<NOTA: 1000> 

<Data da coleta: 21/03/2018> 

«Local da coleta: http://download vol.com.brvestibular?/redacavenem beatrizcarvalho.jpo> 


Trânsito inequacional 


Desde sua invenção, a bebida alcoólica faz parte da cultura de diversas civilizações. Wee com o surgimento do automóvel, esse e aquela não podem ser vanáveis de 
uma mesma equação. Nesse aspecto, a Lei Seca implantada no Brasil reduziu consideravelmente o número de mortes por acidentes de trânsito. Entretanto, O 
indmdualismo da sociedade e o sistema de transporte dificultam um efeito definitivo. 


A aplicação do código de trânsito encontra seu maior desafio no alto índice de transgressão. lsso ocorre devido à mentalidade indmidualista da maionia das pessoas, já 
citada pelo filósofo John Lock, que acredita que as leis servem para os outros mas não para si. Além disso, a må qualidade educacional, principalmente do ensino 
público, reduz o conhecimento acerca de cidadania e dos direitos necessários para sua execução. Dessa forma, a quantidade de acidentes nas cidades e estradas 
ainda é grande, assim como o número de montes. 


Ademais, O sistema de transporte nó Brasil também dificulta a execução da Lei Seca. laso é consequência da baixa disponibilidade de ônibus, trêns e metrós durante a 
noite è a madrugada, horários em que hã maior consumo de bebidas alcoólicas. Essa falta ocorre, principalmente, em bairros periféricos, cidades pequenas e médias 
Além disso, a escassez de segurança desincentna o uso desses. Assim, mutas pessoas optam por dingir, colocando em nsco a nda delas e de outros. 


Portanto, a Lei Seca é importante para a redução do número de acidentes de lrânsito. Porém, sua efetmidade completa só ocorrerá com a mobilização da sociedade. 
Sendo assim, é preciso que à govemo acrescente ao currículo escolar disciplinas como cidadania e segurança no tráfego, além de tomar mais rigidas as punições 
pelas transgressões e aumentar o número de postos de fiscalização. Ademais, deve-se fazer uma reforma no sistema de transportes públicos, aumentando o número 
desses nos horários notumos e nas cidades perféricas. Dessa forma, será possível reduzir o número de mortes no trânsito e chegar a uma sociedade menos 
indridualista. 


concordance colloca plot patterns clusters timeline filenames | sourcetet | notes 


T entres Row 4 | j [ura de diversas civilizações. Porém, com o surgimento do aut 


Fonte: Concord (dados de pesquisa). 


A partir da análise do corpus, foi possível identificar, em dois arquivos, o elemento coesivo 
porém na introdução do texto ao fundamentar a tese, ou seja, essa é uma regularidade 
interessante para nossa pesquisa, e, para tanto, poderá ser o ponto de partida que nos indicará 
a necessidade de contraposição para fundamentação de ideias. Todavia, ainda é necessário 
condicionar o uso desse elemento coesivo à questão da impessoalidade, aspecto fundamental 
do nosso estudo. 


Diante disso, separamos as duas redações que apresentaram essa incidência do porém 
na introdução, na tentativa de analisarmos um pouco mais a fundo as consequências desse 
uso da construção discursiva e como se estabelece uma relação de impessoalidade nessas 
produções. 


Na Figura 3, vemos o primeiro exemplo de uma redação sobre a Lei Seca — Efeitos da 
implantação da Lei Seca no Brasil” —- tema da aplicação em 2013 do Enem. Nessa redação, a 
candidata, que obteve nota máxima no exame, fez uso do elemento coesivo porém em seu 
segundo período da introdução. 


Para desenvolver o tema em foco, a participante apresentou a ideia de que Desde sua 
invenção, a bebida alcoólica faz parte da cultura de diversas civilizações. . E depois contrapôs 
esse fato elucidando que Porém, com o surgimento do automóvel, esse e aquela não podem 
ser variáveis de uma mesma equação”. Assim, percebemos que a candidata considera o 
surgimento do automóvel uma problemática quando se une ao uso da bebida alcoólica. A Lei 
Seca, sancionada no Brasil no final de 2012, foi criada para diminuir a incidência de pessoas 
alcoolizadas no trânsito, pois o numero de acidentes, dentre eles, muitos considerados graves, 
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em decorrência dessa combinação, era muito alto. Então, a tese fundamenta-se de modo 
coerente com o tema, problematizando a questão principal no que tange ao uso do álcool 
agregado à condução de um automóvel. 


Em relação ao aspecto da impessoalidade, observamos que, em nenhum momento da 
introdução, a autora apresentou elementos que indicassem pessoalidade, como o uso da 1º 
pessoa do discurso no singular Eu” ou da 13 pessoa do discurso no plural Nós, assim como 


mm 


nenhum verbo conjugado que condicionasse essa pessoalidade, como: concordo”, penso”, 
“considero”, analiso, dentre outros. Contudo, mesmo sem essa pessoalidade na construção 
discursiva, foi possível identificar a opinião da autora, baseada em um fato já conhecido e 
comprovado, por meio de dados explicitados também nos textos motivadores da proposta: a Lei 


Seca diminuiu consideravelmente o número de mortes decorrentes de acidentes de trânsito. 


Ainda na intenção de explorar a hipótese de que as redações com notas favoráveis no 
exame apresentam com maior frequência a tese de forma impessoal, apresentamos outro 
exemplo que foi possível observarmos com o auxílio do WST. 


Na Figura 4, veiculamos um recorte do segundo e último exemplo de uma redação que faz 
uso do elemento coesivo porém na introdução do texto. 


Figura 4: Arquivo de redação — texto 2. 


PE] CMsersiroseniDesktopiROSENAN? - CORPUS ENEM NOTA MILVCORPUS TXT ENEM NOTA MIL TODOSENEM NOTA MIL - 11 - D6.txt — O x 
File Edit View Compute Settings Windows Help 


<Autor(a): Manuela Marques Batista> 

<Titulo: Quinze minutos de fama (ou a etemnidade)> 

<NOTA: 1000> 

<Data da coleta: 23/03/2018> 

<Local da coleta:http://download. inep.gov.br/educacao basica/enem/downloads/2012/guia participante redacao enem2012.pdf> 


Quinze minutos de fama (ou a etemidade) 


Estar em todos os lugares sem sair de casa, acesso rápido às informações e contato com as pessoas em frações de segundo: são algumas das maravilhas do mundo 
moderno. [ei é preciso cuidado ao lidar com tamanha facilidade de interação. Falta de privacidade, demasiada exposição indmidual e até mesmo a perda de 
personalidade, são fatores que andam na contra-mão da progressmna intemet. 


Fazer parte de uma rede social hoje é, além de ferramenta de comunicação, possibilidade de usar a web à seu favor, personalizando-a e adequando-a as suas 
necessidades e preferências. Não raro acontecem exageros na hora de expor detalhes sobre a vida, o que representa sério risco, visto que a intemet é um meio público, 
de fácil acesso e manipulação de dados. Sem autonzação, é frequente o número de meninas que se vê em fotos de sites pornográficos. 


Ainda no contexto de exposição individual, hå outra vertente; a falta de prracidade. Embora todos queiram seus “quinze minutos de fama”, esse tempo se toma 
incontrolável quando hã minúcias sobre a vida pessoal disposta na rede. Passivo de criticas, preconceito e do tão famoso "bullyng”, estã quem perde o controle de suas 
informações, além de o problema exiravasar da vida digital para a vida real. 


Para os jovens, a maior dificuldade parece ser discernir o real do literário. Ainda em formação moral, muitos deles assimilam as piadas e idéias alheias como suas, 
sem prévia crítica. Acontecem assim, sem que haja controle, disseminações de brincadeiras de mau gosto, de padrões comportamentais prejudiciais, muitas vezes, à 
vida e sociedade e à construção de sua personalidade. 


Diante das inúmeras discussões comportamentais que a nova era digital propícia, é preciso repensar e nortear as ações indmiduais para que se mantenha agradável e 
saudável a vnência coletiva. Órgãos públicos, agentes de educação família devem trabalhar na disseminação de informações s sobre a vida online. Nesse sentido, será w 


“concordanos collocates plot patterrs “dusters timeline filenames | source tes | “notes 


T entries Row 6 maravilhas do mundo modemo. Porém é preciso cuidado ao lid 


Fonte: Concord (dados de pesquisa). 


É possível observar que a conjunção adversativa porém se localizou no mesmo espaço 
linguístico-discursivo do outro texto em análise, no início do segundo período da introdução. 
O tema dessa redação é diferente da anterior, pois aborda a questão da Manipulação do 
comportamento do usuário pelo controle de dados na internet e foi cobrado no ENEM de 
2018. 
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De antemão, percebemos que o uso do porém condicionou uma oração em contraposição à 
anterior, em conformidade com o sentido semântico que esse conectivo proporciona. Ao lermos 
a ideia por completo, compreendemos que o acesso rápido às informações eo contato com 
as pessoas em frações de segundo”, para a autora do texto, são algumas das maravilhas do 
mundo moderno, já que, atualmente, não é preciso sair de casa para se conectar com indivíduos 
do outro lado do mundo, bem como para realizar pesquisas de modo rápido e seguro. Contudo, 
a participante refuta essa ideia ao lançar mão do porém para indicar que “é preciso cuidado ao 
lidar com tamanha facilidade de interação . Ou seja, ela apresentou dois pontos interessantes 
sobre o uso da internet na atualidade (acesso rápido e contato rápido com outras pessoas), 
mas também reforçou que é necessário cuidado, pois tamanha facilidade também causa outros 
problemas como Falta de privacidade, demasiada exposição individual e até mesmo a perda 
de personalidade”. Tudo isso nos mostra que a autora conseguiu relacionar bem a ideia de 
como os usuários da internet se comportam hoje em dia mediante esses fatores explicitados, 


conectando de forma produtiva a sua tese ao tema explorado. 


O uso de elementos que condicionem pessoalidade não foi percebido, assim como no 
exemplo analisado anteriormente. Além disso, a ideia de apresentar uma contraposição por 
meio do elemento coesivo porém para fundamentação de uma opinião baseada em fatos 
irrefutáveis, conforme detalhamos, é reforçada. 


Diante das análises preliminares compostas, ressaltamos alguns pontos de observação 
importantes: 


- as redações analisadas possuem suas teses no local indicado para elas, que é a introdução 
do texto; 


- Sabemos que as teses estão na introdução pelos indicativos linguísticos (nos exemplos 
explicitados, pelo uso de porém, mas poderiam ser verbos conjugados em 32 pessoa, 
conjunções que indicam ideias de negação, dentre outros, pois há variação conforme o 
tema e a personalidade discursiva do autor); 


- as teses observadas estabeleceram uma relação de sentido e de coerência com o tema 
proposto, o que pressupõe planejamento e organização das ideias; 


- todas as redações observadas não apresentaram elementos que condicionassem 
pessoalidade, ou seja, não houve percepção de verbos conjugados em 1º pessoa, seja 
do singular ou do plural, e nenhum pronome ou substantivo que demonstrasse esse tipo 
de pessoalidade. 


Por fim, consideramos que a análise desses exemplos foi de grande valia para prosseguirmos 
com os estudos da pesquisa em andamento, ampliando ainda mais nossa hipótese de que é 
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possível construir uma técnica eficaz de produção escrita opinativa, mesmo que impessoal, 
numa redação estilo ENEM. 


5 Considerações finais 


Diante da proposta de estudar a impessoalidade na construção da tese e da argumentação, 
com foco em elos coesivos e com base em um corpus composto por redações estilo ENEM, 
foi possível verificar que o uso de determinados elementos coesivos condiciona uma fluidez 
maior na produção de textos, auxiliando na apresentação de uma escrita opinativa e impessoal. 
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1 Mestrando em Estudos Linguísticos pela Universidade Federal de Uberlândia. Lattes: http://lattes.cnpq. 
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1 Introdução 


A matéria-prima para a Linguística é a língua e para a Linguística de Corpus (doravante 
LC) são os textos, textos estes que tenham sido escritos em linguagem natural e não textos 
produzidos para atender a fins de pesquisa. Segundo Biderman (2001, p. /9), podemos definir 
um corpus como “uma coletânea de textos em formato eletrônico codificados de modo 
padronizado e homogêneo. [...] a principal forma de obtenção desses dados da atualidade se 
dá por intermédio da internet, ou através da digitalização de documentos, tornando-os assim 
documentos digitais”. Os textos disponibilizados via internet estão comumente em formato 
de hipertexto” ou em algum outro formato eletrônico. 


A captura desses textos pode ser uma tarefa, além de demorada, cansativa. Em se tratando 
de documentos em formato HTML, a coleta desse tipo de documento pode ser feita por uma 
sequência básica de comandos, de seleção”, cópia” e colagem. Para a captura de textos em 
formato PDF, o procedimento acima não se aplica por se tratar de um formato diferente de 
documento. Para essa tarefa, é preciso que o pesquisador realize de forma manual o download 
do documento, de acordo com as funcionalidades de download de arquivos oferecidas pelos 
navegadores de internet. 


Dentre as questões que podem influenciar o tempo e o esforço para a elaboração manual 
do corpus, a intervenção do pesquisador ganha destaque ao estar presente em praticamente 
todas as fases do projeto (BAKER, 2010). Pensando em tornar essas tarefas menos onerosas, 
criamos uma ferramenta para fazer esse trabalho de forma mais rápida e prática. Para isso, 
utilizamos o poder e a flexibilidade que as linguagens de programação nos dão. 


Desenvolvemos um script que faz o download de obras disponibilizadas em sites. Em 
particular, para este trabalho, foram focalizadas as obras do escritor brasileiro Machado de 
Assis disponíveis em domínio público em formato PDF. O script faz o download dessas obras 
e as converte em arquivo de texto simples TXT”. 


2 Com base em Baker, Hardie e McEnery (2006), Oliveira (2019, p. 45) afirma que “um documento de hipertexto pode conter links para outros 
documentos e formar redes de textos. Os documentos de hipertexto estão presentes na Internet sob o formato HTML, uma derivação do 
Standard Generalised Markup Language (SGML)”. 


3 Linguagem de marcação de hipertexto é um bloco de construção mais básico da internet. 
4 Para selecionar texto em navegadores de internet, podemos usar a combinação de teclas CTRL+A. 
5 Ao utilizarmos a sequência de teclas CTRL+C, realizamos a cópia de um texto já selecionado. 


6 A sequência de teclas CTRL+V é utilizada para realizar o procedimento de colar o texto que esteja na área de transferência do sistema 
operacional. 


7 É um tipo de documento que não preserva a formatação — por exemplo, links ou palavras em negrito, itálico, com sublinhado, imagens, cores, 
diferentes tipos de fonte, tabelas, listas com marcadores/números. Esses arquivos normalmente são salvos como .txt. 
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2 Fundamentação teórica 


O trabalho aqui proposto tem como fundamentação teórica os preceitos da LC que, segundo 


Berber Sardinha (2004, p. 3), [...] pode ser definida como uma área que se ocupa da coleta e 


exploração de corpora, ou conjunto de dados linguísticos textuais coletados criteriosamente, 
com o propósito de servirem para a pesquisa de uma língua ou variedade linguística. 


Ainda no âmbito da LC, para que um conjunto de dados seja considerado um corpus, 


existem alguns princípios e critérios que devem ser levados em consideração. Segundo Berber 
Sardinha (2004, p. 18-19), são eles: 


e À origem: os dados devem ser autênticos; 


O propósito: o corpus deve ter a finalidade de ser objeto de estudo linguístico; 

A composição: o conteúdo do corpus deve ser criteriosamente escolhido; 

A formatação: os dados do corpus devem ser legíveis por computador; 

A representatividade: o corpus deve ser representativo de uma lingua ou variedade; 
A extensão: o corpus deve ser vasto para ser representativo. 


Aluísio e Almeida (2006, p. 157-158, grifos das autoras) discorrem sobre outras quatro 


características fundamentais para os corpora, apontadas por McEnery e Wilson (1996), sendo 


elas: 


a) amostragem e representatividade (sampling and representativeness): um corpus deve ter 
uma amostragem suficiente da língua ou variedade de língua que se quer analisar para obter-se 


o máximo de representatividade desta mesma língua ou variedade de língua; 


b) tamanho finito (finite size): com exceção de corpus-monitoré, todo corpus tem um tamanho 


finito, por exemplo: 500 mil palavras, 1 milhão de palavras, 10 milhões de palavras, etc.; 


c) formato eletrônico (machine-readable form): segundo McEnery e Wilson (1996), atualmente o 
emprego do termo corpus significa admitir necessariamente que os textos estejam no formato 
eletrônico, diferentemente da idéia que se tinha de corpus no passado, a qual se referia somente 
a textos impressos. Ainda de acordo com McEnery e Wilson (1996), o formato possui vantagens 
consideráveis: i) os corpora podem ser pesquisados e manipulados de forma mais rápida; ii) os 


corpora podem ser mais facilmente enriquecidos com informação extra; 


8 As autoras definem corpus-monitor como “aquele que pode receber novos textos e tornar-se cada vez maior. É um corpus útil para Lexicografia, 
por exemplo, já que é necessário observar palavras novas na língua ou palavras já conhecidas, mas com emprego diferente” (ALUÍSIO; 
ALMEIDA, 2006, p. 157). 
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d) referência padrão (standard reference): ainda de acordo com McEnery e Wilson (1996), existe 
um entendimento tácito de que um corpus constitui uma referência padrão para a variedade de 
língua que ele representa, pressupondo que o corpus esteja disponível para outros pesquisadores, 


em outras palavras, é o que se tem chamado de reuso do corpus. 


Conforme pontua Dubois et al. (1993 apud ALUÍSIO; ALMEIDA, 2006, p. 157), 


[...] O corpus não pode ser considerado como constituindo a língua, mas somente como uma 
amostra da língua. [...] O corpus deve ser representativo, isto é, deve ilustrar toda a gama das 
características estruturais. Poder-se-ia pensar que as dificuldades serão levantadas se um corpus 
for exaustivo [...]. Na realidade, sendo indefinido o número de enunciados possíveis, não há 
exaustividade verdadeira e, além disso, grandes quantidades de dados inúteis só podem complicar 
a pesquisa, tornando-a pesada. O linguista deve, pois, procurar obter um corpus realmente 
significativo. Enfim, o linguista deve desconfiar de tudo o que pode tornar o seu corpus não- 
representativo (método de pesquisa escolhido, anomalia que constitui a intrusão linguística, 


preconceito sobre a língua). 


Ao estudar os conceitos apresentados nesta seção, sobre o que é um corpus e algumas 
das suas principais características, podemos chegar à conclusão que, para a construção de 
um corpus, devemos levar em consideração alguns aspectos importantes: o corpus deve ser 
representativo, os textos devem ser produzidos de forma natural, isto é, não podem ter sido 
produzidos para a pesquisa, e deve ser possível, a partir do corpus, ampliar o conhecimento 
sobre a lingua ou variedade que ele representa. 


Além disso, é importante salientar que o computador tem um papel primordial no 
desenvolvimento da LC. Berber Sardinha (2004, p. xvii) já afirmava que: o computador pessoal, 
com memória poderosa e capacidade de armazenamento, começa a desempenhar, nas ciências 
humanas, o papel transformador que o telescópio teve na física e nas ciências exatas. 


Isso vem demonstrar quão necessária e importante é a utilização do computador para a 
realização de trabalhos na área da LC. Conforme defendido por Berber Sardinha (2004, p. 18- 
19), um corpus deve ser extenso e representativo. Partindo desse princípio, não conseguimos 
vislumbrar uma outra forma de analisar uma grande quantidade de textos sem o auxílio de 
ferramentas computacionais, visto que analisar volumes extensos de textos manualmente 
torna-se impraticável. 


Tendo a sua importância evidenciada em outros trabalhos da área, o computador e as 
ferramentas advindas dele são de grande relevância para a Linguística. Trataremos neste 
trabalho de uma ferramenta computacional especificamente voltada à coleta e conversão 
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de textos disponíveis na internet. Essa ferramenta foi desenvolvida com o intuito de auxiliar e 
automatizar a coleta dos textos do escritor brasileiro Machado de Assis. Os textos coletados 
por essa ferramenta serão utilizados como base para testes da plataforma GEConWebº. 


3 Metodologia 


Para o desenvolvimento da ferramenta, que vai automatizar a coleta dos textos de Machado 
de Assis, utilizamos a linguagem de programação Python”. Sua escolha se justifica pela sua 
simplicidade e grande versatilidade e por ser uma linguagem multiplataforma. Isso quer dizer 
que os programas desenvolvidos com ela podem ser executados nos principais sistemas 
operacionais da atualidade (Linux, Windows e MacOS). Essa característica da linguagem 
é importante, pois, uma vez desenvolvido, o programa poderá ser executado em qualquer 
computador que tenha instalado um dos sistemas operacionais listados acima. Python é uma 
linguagem muito eficiente e versátil. Com ela, é possível desenvolver desde grandes sistemas 
a ferramentas para automatização de tarefas. Também são criadas ferramentas que envolvem 
o uso de inteligência artificial. 


Para darmos início ao procedimento de extração dos textos, em primeiro lugar, devemos 
acessar o site onde as obras estão hospedadas, http://machado.mec.gov.or. Logo na página 
inicial, temos um item de menu chamado Obra completa. Na Figura 1, ilustramos esse menu. 


Figura 1: Menu principal do site. 


APRESENTAÇÃO 


OBRA COMPLETA 


CRONOLOGIA 


BIBLIOGRAFIA 


VÍDEOS 


O AUTOR E A OBRA 


NA REDE 


Fonte: http://machado.mec.gov.br. 


9 Sistema que será desenvolvido como trabalho final da minha dissertação de mestrado em andamento. 


10 É uma linguagem de programação criada em 1991 por Guido Van Rossumem, com a finalidade de ser uma linguagem simples e de fácil 
compreensão. 


163 | 


Ao clicarmos nesse item do menu, somos levados para uma outra tela que contém uma 
lista com as categorias das obras. Cada um desses itens nos leva para uma terceira tela com 
listagens de todas as obras do autor de acordo com a categoria escolhida. É partir dessa 
listagem que iniciamos o processo de extração dos textos. A Figura 2 nos dá uma visão da tela 
de listagem por categorias. 


Figura 2: Lista com todas as obras organizadas por categorias. 


Fonte: Elaborada pelo autor. 


Figura 3: Definindo o endereço do site. 


url 
response = requests. (url) 


Soup (response.text, 


Fonte: Elaborada pelo autor. 


Conforme pode ser visto na Figura 3, definimos como ponto de partida o endereço principal 
do site. A partir desse ponto, começamos a procurar os elementos na página que nos levam para 
uma outra página que contém as obras de acordo com a sua categoria. Precisamos inspecionar 
um dos elementos da listagem para entendermos como estão organizados. Quando clicamos 
com o botão direito do mouse e selecionamos a opção de inspecionar, conforme é mostrado na 
Figura 4, é aberta uma aba no navegador mostrando o código fonte do item que foi selecionado. 
Na figura 5, ilustramos o código que gera a listagem das categorias. 
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Figura 4: Inspecionando o elemento da tela. 


ROMANCE Abrir link em uma nova guia 


Abrir Link em uma nova janela 


Abrir link em janela anônima 


7 D Em Fm Ez p E IL z o Tt ra, : 
- enviar Na pala a it to DIS po A| V, >g E] HJ 


Copiar endereço do link 
Fazer Login no Evernote 


INS peciónar 


Fonte: Elaborado pelo autor. 


Figura 5: Código fonte da tela de listagem das obras. 


W<div class="row obras = == 56 
“before 


E <div class='col-md-3'=.</div 
b ediv class="col-md-3"=.</div= 
Þ <div class='col-md-3'=.</div 
k<div class="col-md-3"=.</div= 
E <div class='col-md-3'=.</div 
k<div class='col-md-3"=.</div= 
k=<div class="col-md-3"=.</div: 
k=div class="col-md-3º>.</div= 
k=<div class="button-ver-mais"=u</div= 


after 
Fonte: Elaborada pelo autor. 


Conhecendo como foi estruturada a página, podemos começar a ler esses dados. OÓptamos 
por utilizar a biblioteca" de programação chamada BeautifulSoup, por ser uma das mais 
utilizadas no que tange à extração de código HTML. Todos os elementos estão envoltos por 
um elemento pai. Esse elemento pai tem uma classe de definição de estilo chamada row obras. 
Dentro de cada um desses elementos, temos um link que nos leva para a página das obras 
daquela categoria, conforme ilustra a Figura 6. 


Figura 6: Detalhes do elemento HTML que compõe a lista de categorias. 


¥ <div class="row obras > == 560 
: :before 
¥ <div class="col-md-3"- 

¥ ¿div class="obra romance 
éodiv class="ribbon'=.</div> 
<a href="/obra-completa-lista/itemlis 

<div class=ºfundo-livro'=</div> 

fdiv> 

=fdiv> 


t/categorwy/23-romance">.</a> 


Fonte: Elaborada pelo autor. 


11 São trechos de código desenvolvidos para realizar uma determinada tarefa em específico. 
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Demonstramos, na Figura 7, o código que foi desenvolvido para percorrer todos esses 
elementos e extrair deles os links para cada uma das páginas das obras. 


Figura 7: Código que percorre todos os elementos da lista de categorias. 


obras soup. ( row obras'): 
pages_of_obras [al'href'] 
a obras.find_all('¿ 


page pages_of_obras: 


page.endswith('/obr 
url to obras. (Ent! 


Fonte: Elaborada pelo autor. 


Conforme pode ser observado, criamos uma estrutura de repetição que percorre e encontra 
todos os elementos que estão dentro do elemento que tem a classe row obras. Para cada um 
que for encontrado, buscamos por um atributo chamado “href”. O valor definido nesse atributo é 
o endereço para a página com a lista das obras por categoria. Exemplo: o componente intitulado 
“romance” tem um endereço para as obras dessa natureza. Veja um exemplo na figura a seguir. 

Figura 8: Lista de obras por categoria. 


MACHADO DE ASSIS - ROMANCE 


Romance se Ordenar por ano 


laiá Garcia 


Ressurreição A Mão e a Luva Helena 
1872 1874 1876 1878 
[PDF | [PDF | | PDF | [PDF | 
o (+) (+) o 
Memórias Póstumas Casa Velha Quincas Borba Dom Casmurro 
de Brás Cubas 1885 1891 1899 
1881 
[PDF | [PDF | [PDF |] [PDF | 
o o o oO 


Fonte: Elaborada pelo autor. 


Essa é a página com a listagem das obras por categoria, no caso da Figura 8, das obras 
presentes na categoria romance. Novamente, é necessário inspecionar um dos elementos para 
entendermos como a lista com as obras foi estruturada, conforme apresentado na Figura 9. 
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Figura 9: Lista de obras por categoria. 


vw<div class-'item == $0 
vw<div class='detalhes 
div class='“titulo Ressurreição </div 
div class='detalhe ano 1872 </div 
/div 
vw<div class="download 


><a href="/obra-completa-lista/item/download/20 f90feea4579f3d4964f49e34dc473155" title="Download'">..</a 
</div 
/div 
/div 


Fonte: Elaborada pelo autor. 


Conforme se observa na Figura 9, temos dois itens importantes que compõem essa 
estrutura: um é o componente que está agrupando os detalhes da obra, como título e ano; e 
o outro é o endereço para download do arquivo. Precisamos extrair essas informações e com 
isso, compor o nome do arquivo e o endereço para download. Se observarmos, iremos perceber 
que o endereço para o arquivo não está completo, está faltando a parte inicial do endereço que 
nesse caso é o domínio do site. Na Figura 10, a seguir, ilustramos o código que foi desenvolvido 
para realizar essa tarefa, montar o nome e o endereço completo para download do arquivo. 


Figura 10: Código que percorre todos os elementos da lista de obras. 


div soup. ( 
detalhes div.find ali( 
name detalhes.find ali( 
]J.text.strip().replace( 


name.rfind( Je 
name name.replace( 


name.rfind( E 
name name.replace( 


ano detalhes.find ali( 
I-text stripi) 


ano.rfind( ): 
ano ano.replace( 


filename name 


( nachado.m v.br/"+div.find( 
tle": H-attrsi i FOI 


Fonte: Elaborada pelo autor. 


O código apresentado na Figura 10 percorre a lista de obras e realiza duas tarefas importantes: 
acessa o elemento com a classe de estilo 'detalhes” e, de dentro dela, extrai informações de 
autoria e ano de publicação. Esse procedimento é necessário para que possamos montar o nome 
da obra e utilizarmos para isso o padrão: nome e ano de publicação. Com essas informações em 
mãos, faremos a junção entre o nome da obra e o ano de publicação. Ao compormos o nome, 
realizamos a substituição dos espaços em branco que separam o nome e o ano por underline 
(por exemplo, Ressurreição 1872.pdf). 
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Após realizar esse processamento, chamamos a função bloco de código”, que foi criada 
especificamente para realizar a tarefa de baixar o arquivo que lhe foi informado. 


Figura 11: Função responsável por fazer o download do arquivo. 


requests.get(url, 


( 


path corpus 


os.path. (path corpus): 
Os. (path corpus) 


(path corpus : 
shutil. (r.raw, f) 
( , path corpus, 


Fonte: Elaborada pelo autor. 


Conforme pode ser observado na Figura 11, a função get file!” recebe três informações 
importantes para o seu funcionamento, que são: endereço do arquivo, nome do arquivo e 
a categoria à qual pertence o arquivo. A função inicia o processo de download do arquivo, 
salvando-o em uma pasta específica. 


Ao final do seu processamento, a função responsável por fazer o download do arquivo em 
PDF invoca uma outra função chamada pdf2txt, que recebe três informações importantes: 
nome do arquivo, localização do corpus e a categoria a qual pertence o arquivo. A função 
busca pelo arquivo no corpus com base no nome e no caminho do corpus, e o converte em 
arquivo de texto, salvando o novo arquivo na pasta adequada. Na Figura 12, a seguir, temos 
uma ilustração da função que converte arquivos em PDF para TXT. 


12 Nome dado à função que faz o download do arquivo em PDF. 
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Figura 12: Função responsável por converter PDF em TXT. 


( 


msg 


(msg) 


pdf file path 
(pdf file path, 
pdf pdftotext.PDF(file) 


.endswith('.pdf'): 
os.path. 
OS. ( 
new_filename .replace('.] É ECT) 
(new filename, Ads E) output file: 


page pdf: 
output file. (page) 


Fonte: Elaborada pelo autor. 


Segundo Berber Sardinha (2004, p. /2), uma vez que os textos tenham sido coletados e 
limpos, a tarefa seguinte é a organização dos arquivos em uma estrutura coerente”. Tentando 
seguir essa orientação, dividimos a organização dos arquivos em uma estrutura de pastas, de 
modo que cada pasta indique quais textos estão armazenados dentro dela. O corpus ficou 
organizado da seguinte forma: uma pasta chamada corpus”, onde serão armazenados todos os 
arquivos, e duas outras pastas, uma chamada “pdf” e outra chamada “txt”, ambas para armazenar 
os arquivos em PDF e TXT, respectivamente. A Figura 13 ilustra como ficou a organização do 
corpus após o download e conversão dos arquivos. 


Figura 13: Estrutura do corpus. 


Contos Fluminenses 1870.pdF 
Histórias da meiaanoite 1873.pdF 
Histórias sem data 1884.pdf 
Páginas recolhidas 1899.pdFf 

s avulsos 1882.pdF 


“Casa Velha 1906.pdFf 


Contos Fluminenses 1870.Etx 
Histórias da meiaanoite 1873.tx 


Histórias sem data 1884.Exk 


Páginas recolhidas 18995.Ext 
E= 


Papéis avulsos 18 

Relíquias de Cas 

várias histórias 1896.Ex 
critica 


cronica 


miscelanea 


Fonte: Elaborada pelo autor. 
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Foram apresentados, acima, os procedimentos utilizados para automatizar a tarefa de 
obtenção e conversão dos dados. À seguir, teceremos algumas considerações acerca dos 
objetivos traçados para este trabalho. 


4 Algumas considerações 


Os procedimentos descritos neste estudo demonstram o quanto as ferramentas 
computacionais podem facilitar o trabalho de pesquisa em LC e poupar os pesquisadores de 
esforços, por vezes, desnecessários. A utilização de programação para automatizar tarefas 
repetitivas e laboriosas — como coleta, nomeação, salvamento, conversão, limpeza e normalização 
de arquivos - viabiliza a economia de tempo e esforço. Fatores como a repetição e o cansaço 
no desempenho dessas tarefas são indícios para a busca de alternativas para deixá-las, por 
exemplo, a cargo do computador, cabendo ao pesquisador a tarefa de verificação dos resultados. 
Por meio dessa automatização, o pesquisador acaba ganhando mais tempo para se dedicar 
as análises e às discussões dos dados. 
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1 Introdução 


Este estudo é um recorte de uma pesquisa de mestrado realizada no programa de pós- 
graduação em Criminologia da Universidade do Porto, em Portugal (SOUZA, 2018). Nosso 
objetivo consiste em explorar e compreender os significados atribuídos à palavra medo em 21 
(vinte e uma) entrevistas semiestruturadas realizadas com brasileiros residentes em quatro 
cidades do Brasil. Especificamente, pretende-se compreender, por meio da análise do campo 
semântico desse lexema e de suas derivações no discurso dos entrevistados, de que modo são 
construídos os significados do sentimento de medo e a sua relação com os contextos físicos 
e sociais que o faz emergir. Sendo assim, procuramos unir duas áreas de interesse, Linguística 
Aplicada e Criminologia, para empreender uma abordagem transdisciplinar. 


Realizamos uma análise pautada na Análise do Discurso (doravante AD), visto que ela 
oferece atenção aos processos de produção e interpretação linguística, caracterizadas por 
tensões sociais e que contemplam a dimensão da mudança social através do discurso. Além 
disso, utilizamos como abordagem a Linguística de Corpus (LC), portanto, partimos de evidências 
linguísticas empíricas identificadas e analisadas por meio de ferramentas computacionais, em 
específico a WordList e o Concord do WordSmith Tools 4.0 (SCOTT, 2004), programa utilizado 
para o processamento do corpus e para a análise dos dados. 


2 Fundamentação teórica 


O arcabouço teórico deste trabalho combina a Criminologia e a Linguística Aplicada. 
A Criminologia é uma ciência autônoma, empírica e interdisciplinar que estuda o crime, o 
criminoso, a vítima e o controle social da conduta criminosa (OLIVEIRA, 2018). Já as pesquisas 
em Linguística Aplicada oferecem um olhar demandado pelo interesse sócio-histórico, 
envolvendo-se em um processo de renarração ou redescrição da vida social, o que nos direciona 
à necessidade de compreendê-la. 


Estudar a estrutura linguística e a estrutura social, concentrando o olhar nos efeitos de 
sentidos e na manipulação ideológica nos sistemas de linguagem existentes na sociedade, 
permite ao pesquisador explorar o que não é visível, mas, de algum modo, perceptível no 
convívio social, como as manifestações ideológicas que aparelham várias práticas sociais. 
Nessa perspectiva, o estudo dos efeitos de sentido da língua(gem) não é um estudo voltado a 
leis e estruturas próprias da língua, mas sim um campo interpretativo que busca o significado. 
Isso requer olhar para outras ciências. Como afirma Moita Lopes (2006, p. 96), se quisermos 
saber sobre a linguagem e vida social nos dias de hoje, é necessário sair do campo da linguagem 
propriamente dita e ler sociologia, geografia, história, antropologia, psicologia cultural e social, 
entre outras ciências. 
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Diante disso, cruzamos Linguística Aplicada e Criminologia para melhor compreender, 
através da análise de campo semântico, os significados e os efeitos de sentido que o lexema 
medo evoca nos indivíduos. Mas antes de adentrarmos nesse universo de significados, cabe- 
nos compreender o que os estudiosos da Criminologia entendem por medo. 


2.1 Medo na ótica da Criminologia 


O dicionário de Francisco Bueno (1898) afirma que medo é uma inquietação que se diferencia 
da ansiedade, por relacionar-se a objeto determinado”. Por sua vez, o Dicionário Online de 
Português define medo como sendo um “estado emocional provocado pela consciência que 
se tem diante do perigo; aquilo que provoca essa consciência (DICIO, 2022). 


A literatura criminológica nos mostra que a designação de medo não é algo simples, 
pois devemos ampliar o olhar sobre este lexema e compreender o que está em sua volta. Na 
ótica criminológica, tal fenômeno reflete mudanças de rotina, aquisição de comportamentos 
de segurança, exclusão de grupos sociais e até mesmo de determinados locais, além do 
enfraquecimento e desorganização das estruturas sociais (GAROFALO, 1981; HALE, 1996; 
SKOGAN; MAXFIELD, 1981; FERRARO, 1995). 


Estudos já realizados apontam vários fatores que contribuem para a potencialização 
do medo, e o crime é um fator em destaque na constituição do medo nos sujeitos. O medo, 
especificamente do crime, tornou-se alvo de pesquisa de grandes estudiosos, como Garofalo 
(1981), Hale (1996), Skogan e Maxfield (1981), Ferraro (1995), entre outros. Mas cabe ressaltar 
que o crime, por si só, não agrava o sentimento de medo, pois este sentimento é uma resposta 
ao significado atribuído a alguns contextos sociais e físicos aos quais ele é relacionado. 


Os estudiosos dessa temática apontam que, ao enfrentarem uma ameaça, todos os seres 
vivos têm uma reação, seja de fugir ou de agredir (BAUMAN, 2008). Não obstante, focalizando 
somente no ser humano, Bauman (2008, p. 9), pontua que há 


[...] uma espécie de medo de “segundo grau”, um medo, por assim dizer, social e culturalmente 
“reciclado” ou (como o chama Lagrange em seu fundamental estudo do medo) um medo “derivado” 
que orienta seu comportamento (tendo primeiramente reformado sua percepção do mundo e 
as expectativas que guiam suas escolhas comportamentais), que haja ou não uma ameaça 
imediatamente presente. O medo secundário pode ser visto como um rastro de uma experiência 
passada de enfrentamento da ameaça direta - um resquício que sobrevive ao encontro e se 
torna um fator importante na modelagem da conduta humana mesmo que não haja mais uma 


ameaça direta à vida ou à integridade. 
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Nessa perspectiva, o medo, enquanto componente emocional, trata-se de uma junção de 
reações emocionais adquiridas em experiências passadas. Assim, o medo do crime, por exemplo, 
é compreendido por reações emocionais adquiridas em experiências passadas condicionadas 
pelo crime ou por símbolos associados à criminalidade (FERRARO, 1995; FERRARO; LAGRANGE, 
1987). 


Por se tratar de um lexema subjetivo, o medo é um sentimento difícil de ser mensurado, 
o que leva o pesquisador a caminhos abstratos da conduta humana, pois tal sentimento é 
uma resposta ao significado atribuído a alguns contextos sociais e físicos aos quais ele é 
relacionado, como já demonstrado nos estudos de Brites (2010), Dunstan et al. (2005), Guedes 
(2016), Hunter (1978), Lourenço (2010), Souza (2018), entre outros. 


2.2 Medo na perspectiva lexical 


Na ótica lexical, Kalverkâmper (1983, p. 126 apud ZILIO, 2010, p. 131) nos recorda que: ...] 
assim como as unidades lexicais estão alojadas em um todo de ordem maior, nominadamente, 
a oração também, é uma parte completa de um todo de ordem maior e ainda mais complexo, 
para cuja constituição ela contribui, nominadamente, o texto. 


A partir do trecho veiculado, verifica-se que os lexemas não têm um fim em si, mas estão 
em orações que, por sua vez, constituem textos que representam um significado muito mais 
amplo que o do próprio lexema. Em vista disso, compreender, desvelar e descrever os efeitos 
de sentido e os significados atribuídos ao lexema medo em cadeias enunciativas, por meio de 
métodos empíricos de análise, é um exercício relevante e produtivo. 


Perini (2006) ressalta que palavras servem para comunicar significados e que a possibilidade 
de significados comunicados por uma palavra nunca é infinita. Entretanto, a forma e o contexto 
no qual a palavra é usada modifica esse sentido. Por exemplo, no presente estudo, o lexema 
medo significa coisas distintas para diferentes indivíduos. Assim, para compreendermos os 
significados de medo, é necessário partirmos do próprio lexema, pois cada lexema possui um 
conjunto delimitado de significados, que é o que chamamos de área semântica (PERINI, 2006). 


Para tanto, lançamos mão da AD, por ela se concentrar no uso amplo e geral da linguagem 
dentro de e entre grupos específicos de pessoas, considerando as mais diversas formas 
materiais de significados, além da noção de sujeito, que é aquele ser que fala no mundo (seu 
contexto social e cultural) e que está interpolado por uma ideologia. 


Ademais, realizamos este estudo sob os pressupostos da LC, que, segundo Rajagopalan 
(2006), é uma vertente muito interessante, pois questiona postulados da Linguistica tradicional 
(teórica), com base em uma perspectiva de ordem eminentemente prática. Assim, tal vertente 
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é uma esfera de pesquisa científica preocupada com a exploração de corpora textuais, ou 
seja, conjuntos de textos sistematicamente coletados, em formato eletrônico, que servem de 
objeto de exploração linguística (BERBER SARDINHA, 2004). Esses textos podem ser orais, 
transcritos ou escritos. O importante é que sejam de linguagem autêntica, que representem 
a esfera que se pretende estudar e que não tenham sido produzidos apenas com a finalidade 
de pertencerem a uma pesquisa. Em outras palavras, esses textos precisam refletir utilizações 
naturais de linguagem. Outro ponto interessante da LC é o uso do computador, que, para ela, é 
uma ferramenta crucial, já que é necessário ao pesquisador para compilar, armazenar, etiquetar, 
processar e analisar os corpora. 


É possível testemunhar a utilidade da LC em diversos campos, como ensino de línguas, 
política, linguística forense, religião, negócios, entre outros. Ela será utilizada neste estudo por 
permitir que o pesquisador extraia evidências de uso de língua(gem) natural, e nos auxilia na 
compreensão de como são dados os efeitos de sentido a tudo que o rodeia, isto é, como os 
indivíduos usam as palavras. 


Ao observarmos o lexema medo em utilizações linguísticas autênticas, verificamos que 
ele pode significar diferentes tipos de medo, por exemplo, medo do crime”, medo de estupro, 
“medo de lugares escuros, entre outros. Qualquer outra acepção que a palavra medo possa 
porventura ter é simplesmente tratada ou como extensão ou como desvio daquele significado, 
permitindo registrar os múltiplos usos dos itens que servem de verbetes. 


Posto isto, passemos à apresentação do passo a passo metodológico deste estudo 
exploratório. 


3 Metodologia 


Os dados apresentados e analisados neste estudo foram extraídos de um corpus de 21 
entrevistas semiestruturadas que foram aplicadas em diferentes localidades do Brasil (Castilho- 
SP; Ouro Preto-MG; Campo Grande-MS e Uberlândia-MG), entre os meses de janeiro e fevereiro 
de 2018. Como dito anteriormente, esse corpus, que contabiliza 53.023 tokens (palavras totais), 
é oriundo de uma pesquisa de mestrado em Criminologia (SOUZA, 2018). 


O estudo se debruça no discurso de entrevista semiestruturada, pois, neste tipo de 
entrevista, os entrevistados se sentem confortáveis ao expressar seus sentimentos, experiências 
e interpretações em torno do tema discutido. As entrevistas seguiram um guião de perguntas 
que teve como modelo o adotado no estudo de Guedes (2016). As principais características da 
entrevista semiestruturada consistem em combinar perguntas abertas e fechadas, podendo 
o entrevistador improvisar e reconduzir a entrevista aos pontos de interesse. Cabe sublinhar 
que as questões pré-definidas do guião são seguidas através de uma conversa informal. 
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Destaca-se ainda que os participantes da entrevista foram selecionados a partir de um critério 
da heterogeneidade, pois buscou-se considerar a diversidade dos sujeitos para compreender 
as situações e percepções dos entrevistados acerca do significado associado ao medo, de 
modo a observar as semelhanças e diferenças de constituir o significado do vocábulo medo 
sob a ótica de quem já foi vítima de algum crime e de quem nunca foi vítima de crimes. 


O processo de análise foi subsidiado pela abordagem da LC, utilizando o programa WordSmith 
Tools 4.0 (SCOTT, 2004). Como se trata de um recorte, a transcrição das entrevistas já havia sido 
realizada. Isto posto, a análise ocorreu em duas etapas. A primeira consistiu na identificação 
e análise das ocorrências do lexema medo no corpus. Já a segunda etapa consistiu na análise 
do campo semântico desse lexema e o que ele significa para os entrevistados. 


As ferramentas utilizadas para este estudo foram a WordList e o Concord. No primeiro 
momento, através da ferramenta WordList, foi gerada uma lista de todas as palavras que ocorrem 
no corpus, por ordem de frequência, com suas respectivas ocorrências. A Figura 1 apresenta 
um recorte dessa lista com o lexema medo em destaque. 


Figura 1: Lista de palavras com o lexema medo destacado. 


[E] wsmith4, files.Ist 
File Edit Vem Compute Settings Windows Help 


NO 344 0,63 2 100,00 


GENTE 337 0.62 1 50,00 
PRA 324 0.60 1 50,00 
ACHO 315 0.58 1 50,00 
313 0.58 1 50,00 

AQUI 311 0,57 1 50,00 
MUITO 296 0,55 1 50.00 
LÁ, 288 0,53 1 50,00 
PORQUE 278 0.51 1 50.00 
ME 276 0.51 1 50,00 

AS 263 0.48 2 100,00 
CASA 254 0,47 1 50,00 
PESSOAS 246 0.45 1 50,00 
ENTÃO 240 0.44 1 50,00 
ISSO 232 0.43 1 50,00 
QUANDO 227 0,42 1 50.00 
BEM 219 0.40 1 50,00 

JÁ 217 0.40 1 50,00 
LUGAR 211 0.39 1 50,00 
PARA 210 0,39 1 50,00 
ELA 207 0,38 1 50,00 

OU 206 0,38 1 50,00 


Fonte: WordList. 


Em seguida, foi realizada uma busca contextualizada do vocábulo medo, utilizando a 
ferramenta Concord, visando incluir as ocorrências de suas derivações e dos contextos no 
qual o lexema medo está inserido. No entanto, sublinhamos que as anotações dos dados foram 
feitas manualmente. A Figura 2 apresenta um recorte das linhas de concordância do lexema 
medo. 


176 | 


Figura 2: Linhas de concordância do lexema medo. 


[e] Concord 
File Edt View Compute Settings Windows Help 


Concordance ee St Tag] Word tos) os] Hosltsos] Filej  %l 


isso trãs uma outra dimensão de medo pra mim. ENTREVISTADOR: 52.396 53510% 0 0%] 0 0%] 02 mergedtxl 99% 
primeiro em busca de ibope passa um medo maior pra população. 52.212 525]3%] 0 0% 0 0%] 02 mergedtxl 99% 
janela da sua sala? ENTREVISTADO: Medo de bala perdida. Se um daqueles 51.722 504]0%] O 9%) 0 9%] 02 mergedtxl 98% 

eu acabai saindo do assunto, mas medo pra mim é falta de liberdade. 51.370 493] 0%] 0 8%] 0 8%] 02 mergedtxl 97% 
falta de liberdade, mas assim, eu sinto medo, mas não abro mal de ir a praça 51.214 4870%] 0 8%] 0 8%] 02 mergedtxl 97% 
de liberdade. Nesse sentido de você ter medo de ser abordado sem ter feito nada 54.177 486] 1% O 8%] 0 6% 02 mergedixil 97% 
ENTREVISTADOR: o que é sentir medo pra você? ENTREVISTADO: é falta 51.164 484]8%] 0 8%] 0 8%] 02 mergedtxl 97% 
seguro. Sinto medo e até uso esse medo pra me colocar em alerta e as 50.972 ATT O 7%] O 7% 02 mergedtxl 96% 
não me sinto seguro. Sinto medo e até uso esse medo pra me 50.967 4774% 0 TH 0 7% 02 mergedtxl 96% 
ENTREVISTADOR: entendi. Você tem medo de ser vitima de algum crime 50.659 463]6%] O 7%] 0 7% 02 mergedtxl 96% 
ser noite modifica a sua sensação de medo? ENTREVISTADO: hum...vou 50.586 458] 0%] O 7%] 0 7% 02 mergedtxil 96% 
tem. É aquele negócio, se você tem medo, se você sabe que vai ter uma 49 796 42914] O 5%] 0 5%] 02 mergedtxl 94% 
para aumentar ainda mais o nosso medo. Eles favorecem coisas que não 47.760 32110% O 1%] 0 1%] 02 mergedtxl 90% 
pode gerar uma sindrome, meu maior medo é ter uma sindrome do pânico, por AT 703 31812% O 1%] 0 1%] 02 mergedtxl 90% 
já temos medo, somos reféns desse medo e infelizmente com esse tipo de 47T 650 31814] O 1%] 0 1%] 02 mergedtxl 90% 
que passam. Porque nós jå temos medo, somos reféns desse medo e 47.646 31817% O 1%] 0 1%] 02 mergedtxl 90% 


Fonte: Concord. 


4 Análise e discussão 


Neste tópico, apresentamos como os indivíduos, cujas entrevistas transcritas compõem 
nosso corpus de estudo, sentem e vivenciam o medo. Buscamos realizar nossas análises com 
base nos significados atribuídos ao lexema medo, pois 


[...] é preciso identificar os termos in vivo, não se pode mais seguir o método onomasiológico, ou 
seja, não se pode ir mais do conceito (significado) ao termo (significante) [...]. Parte-se da premissa 


de que o termo é um signo linguístico e que, portanto, não é possível separar significante e 


significado. Contudo, a partir dos textos, começa-se a identificação dos termos pelo significante 


e, após a investigação de seu uso em contexto, se estabelece o seu significado ou, mais ainda, 
seu valor especializado. Começa a predominar, então, o método semasiológico (BEVILACQUA, 


2013, p. 13, grifo nosso). 


A partir de nossas análises, observamos que os sujeitos identificam em seu discurso 
alguns contextos como ameaçadores e perigosos, fator que ressignifica o sentimento de medo. 
Vários lexemas presentes nos discursos dos sujeitos, como insegurança, receio, medo, alerta, 
são constantes ao descreverem o medo, isto é, tais palavras são designações atribuídas ao 
substantivo medo para significá-lo. Vejamos alguns contextos que demonstram essa significação. 


Através da ferramenta da LC juntamente com os ensinamentos da AD constatou-se 
no campo semântico dos enunciados que a ideia de estar sozinho deixa os entrevistados 
vulneráveis, sobretudo no período da noite, desencadeando o sentimento de medo, como 
demonstrado no excerto a seguir: 
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Excerto 1: Então o que me remete medo é andar sozinho a noite... você está totalmente vulnerável 


nessas situações". 


Aqui observamos que andar sozinho” está ligado ao lexema medo, portanto, compondo 
seu campo semântico. 


Figura 3: WordList com o processo SOZINHO destacado e suas derivações. 


[| WordList 
File Edit View Compute Settings Windows Help 


ONO word] Freq) %| Texts) — %ļemmaslSet| 


SOMBRA 1 1 100,00 
SOMENTE 3 1 100,00 
SOMOS 5 1 100,00 
SONOLENTO 2 1 100.00 
SORTE 5 1 100.00 
SORVETERIA 1 1 100.00 
SOSSEGADINHO 1 1 100,00 
SOSSEGADO 1 1 100,00 
SOU 19 0,04 1 100,00 
SOZINHA 1 100,00 
SOZINHAS 1 100.00 
1 100.00 
SOZINHOS 1 100,00 
SPRAY 3 1 100,00 
SUA 192 0,36 1 100,00 
SUANDO 1 1 100,00 
Fonte: WordList. 


Outro aspecto observado no corpus que é importante na significação do medo é a 
familiaridade com os locais. De acordo com os enunciados das entrevistas, conhecer o lugar faz 
com que o sujeito se sinta mais seguro, o que nos leva a compreender que lugares desconhecidos 
causam medo. Vejamos a seguir dois fragmentos dos discursos de dois entrevistados sobre o 
assunto: 


Figura 4: Linhas de concordância do processo LOCAL. 


se essas pessoas tivessem em outro local também não frequentaria esse 9 086 


acontece aqui. È mais por questão do local. Eu moro aqui, então, as coisas 
ENTREVISTADO: Se eu conhecer o local eu não tenho medo. 


falei ai é pior. ENTREVISTADOR: E o local é nessas caracteristicas que falou 
2f primeiro é o local, mas se tiver o local com esses tipo de pessoa que falei 4. 998 


Fonte: Concord. 


Excerto 2: Se eu conhecer o local eu não tenho medo... eu conhecendo o lugar diminui o medo, 
porque você conhece as pessoas que normalmente frequentam e as pessoas que frequentam 


te conhece. 
(Homem, 26 anos, não vítima, Castilho) 


Além disso, verificamos um elemento fundamental ligado ao lexema medo, que é o 
desconhecido. Uma representação nítida desta compreensão está no excerto a seguir, no 
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qual medo está ligado aos contextos de familiaridade e desconhecimento do local. A partir 
do campo semântico, os sujeitos demonstram resistência em sair de suas zonas de conforto, 
tendo em vista que tais zonas trazem sensação de controle e equilíbrio. O desconhecimento, 
por sua vez, não proporciona essas sensações, pelo contrário, a falta de controle acarreta o 
aumento do medo nos indivíduos. 


Excerto 3: “Aqui em casa, as vezes passa gente estranha que não é a da vizinhança, mas parece 
que me sinto mais segura aqui pra cima. Agora umas duas ruas pra baixo já me sinto insegura. 
Não sei se é porque eu já conheço aqui a rua e ali pra cima e não conheço muito ali pra baixo, 


não sei... Acho que o fato deu conhecer, de ter familiaridade com o lugar, de conhecer quem 


vive ali me deixa mais segura”. 
(Mulher, 39 anos, vítima, Uberlândia) 


Cabe esclarecer que o desconhecimento não está ligado somente ao local, mas também 
às pessoas. Além disso, como bem demonstrado no excerto a seguir, o contexto noite é uma 
extensão dada a medo, pois o fato de estar de noite ressignifica o sentimento de medo para 
este entrevistado: 


Excerto 4: sinto mais medo à noite do que de dia. Mas tem sua ressalva. Dependendo do lugar 


e tiver umas pessoas estranhas na rua, aí já fico mais atento”. 


Figura 5: WordList com o processo NOITE destacado. 


[WF] WordList 
File Edit View Compute Settings Windows Help 


100,00 
100,00 
100,00 
100,00 
100,00 
100,00 
100,00 
100,00 
100,00 
100,00 


NINGUÉM 42 0,08 
NISSO i 
NÍVEL 


NORMA, 
Fonte: WordList 


Percebe-se, inclusive, que o estranho, também aludido como desconhecido, é caracterizado 
como ameaçador, aumentando o sentimento de medo. Verificamos ainda que a vestimenta 
também está associada à manifestação do medo nos sujeitos. Os discursos de alguns sujeitos 
reportam a vestimenta para caracterizar que se sentem inseguros. À seguir, apresentamos 
as linhas de concordância para boné (Figura 6) e dois excertos que corroboram o aspecto 
mencionado. 
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Figura 6: Linhas de concordância do processo BONÉ. 


c) Concord 
File Edt View Compute Settings Windows Help 
Nfocodnce o a Set ag Wor Sent josh. losd losk losl rio) #l 


generalizando, não é toda pessoa de boné de aba reta, de bermuda, camisa 48.813 3391 0%] O 0%) 0 0%] 02 merged.txil 92% 
E Geralmente uma pessoa magra, com boné de aba reta, geralmente de tricô, 44145 309304 00% 0 0%] 02 mergedtxl 84% 
frio, está calor. Pessoas que usam boné aba reta. Se bem que hoje em dia 41.228 294 16] 04% 0 4%] 02 mergedtxl 78% 

com casacos, moletom no calor, de boné ou com capuz, normalmente 35.538 2480 4H] 03% 03%] 02 mergedtel 67% 

i| adolescentes mais aglomerado, com boné de aba reta, ai fico com um certo 29784 2092 9%] 01% 0 1%] 02 mergedtxil 57% 
com aquelas roupas largas, com boné aba reta, você fica meio assim, 24.901 17797% 01% 0 1%] 02 merged.txil 47% 

um rapaz só porque está com um bone de aba reta. Mas sim, para 18.300 12932%] O 7%l 0 7%] 02 mergedtail 35% 

por exemplo, as pessoas que usam bone aba reta, que utilizam roupas, tipo 16.195 1188 3%] 03%] 0 3%] 02 megedtal 31% 

fazer tanto mal como uma de brinco e boné pra traz. Pra mim não faz diferença 8670 easy O G% 0 8%] 02 mergedtxil 17% 
suspeito, que usam roupas largas, boné aba reta, chinelo. Evito estar 2856 2004 06% 06% 02 megedtal 6% 

11] uma pessoa que ela anda sem camisa, boné de aba reta, cheia de tatuagem. 2508 1991% 05% 05% 02 mergedtxil 5% 


Fonte: Concord. 


Excerto 5: dependendo do que está vestindo, tipo, se estiver de dia e a pessoa está de blusa 
de frio e nem está frio, está calor. Pessoas que usam boné aba reta... é o que me dá mais medo, 
um certo receio". 

(Mulher, 26 anos, vítima, Uberlândia) 


Excerto 6: “não é preconceito, mas você vendo uma pessoa que ela anda sem camisa, boné 
de aba reta, cheia de tatuagem. Infelizmente é um paradigma a ser quebrado? É, mas você vê 
uma pessoa assim, fica inseguro. 

(Mulher, 24 anos, não vítima, Castilho) 


Reparem que, neste último excerto, a entrevistada aponta um tipo de vestimenta específico 


e mencionou que seria uma vestimenta que está estereotipada na sociedade, o que indica que 


há um perfil traçado pela sociedade com base nesses trajes, pois “todo o bandido tem essas 


características”, como explica um dos entrevistados. 


Vinculado à vestimenta, outro aspecto conectado ao medo é a atitude: 


Excerto 7: Eu acho que é a atitude da pessoa que faz eu sentir medo. Independente da roupa, 
do lugar. E a atitude, a forma como ela te aborda, que chega em você, porque as vezes nem 


sempre a roupa e nem o espaço influencia... então eu acho que é a atitude da pessoa que faz 
eu me sentir com medo. 


(Mulher, 50 anos, não vítima, Uberlândia) 


Além dos fatores já discutidos, a toxicodependência também foi apontada nos discursos 


como ameaçadora, como explanado na fala de um dos entrevistados: Na esquina aqui de 


casa tem uns maconheiros, a gente fica com medo né”. Outra figura constante nas falas dos 


sujeitos é o motoqueiro, como demonstrado na figura abaixo: 
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Figura 7: Lista de palavras com o lexema motoqueiro e suas derivações em destaque. 


[r] WordList 
File Edit View Compute Settings Windows Help 


MOTOQUEIRO 
MOTOQUEIROS 
MOTOS 


Fonte: WordList. 


Figura 8: Linhas de concordância do processo MOTOQUEIROS. 


[e] Concord 

File Edt View Compute Settings Windows Help 
re onmooroima 
| tem o terceiro que é a questão dos motoqueiros. Esses sim eu já vejo que 49.120 3.403 0%] 0 100% 0 100% 02 mergedtxil 93% 
da escola com duas amigas e dois pra giros param, um ficou na moto € 43.516 3.051 3% 0 89% O 89% 02 mergedtx] 82% 
há muitos casos em que ocorre por motoqueiros, fico com medo quando vejo 32.397 2274 0%] 0 66% O 66% 02 mergedtx] 61% 
os crimes estão acontecendo muito por motoqueiros. Ai quando passa um 26.902 1.929 0%] 0 55% 0 55% 02 memgedtxl 51% 
quando eu estou na rua e vêm uns motoqueiros doido, muito rápido. A 538 M 2% 0 1% 0 1% 02 memgedtxl 1% 


Fonte: Concord. 


Os entrevistados apontam que o motoqueiro é uma figura marcante para sua sensação 
de medo: 


Excerto 8: fico com medo quando eu estou na rua e vêm uns motoqueiros doido, muito rápido. 


A gente fica com medo, temos que ficar esperta quando vemos motoqueiro vindo em nossa 
direção, porque eles abordam mesmo. 


Tais explanações estão ligadas à percepção de que muitos crimes são cometidos por 
motoqueiros: 


Excerto 9: "Aqui a gente fica mais assim é com motoqueiros, porque os relatos são que os 


crimes estão acontecendo muito por motoqueiros” / "tem o motoqueiro, que como há muitos 
casos em que ocorre por motoqueiros, fico com medo quando vejo um”. 


Conforme observamos, a construção do significado de medo para os entrevistados envolve 
alguns contextos sociais e físicos que são apresentados no campo semântico dos discursos, que 
por vezes estão enraizados na sociedade e no próprio indivíduo. Vimos que algumas palavras 
e expressões são utilizadas para caracterizar e ressignificar o sentimento de medo e acabam 
compondo o campo semântico de medo. 
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5 Considerações finais 


O presente estudo, situado na interface entre Linguística Aplicada e Criminologia, procurou 
explorar os significados atribuídos ao lexema medo, de modo a compreender o que é sentir 
medo para os sujeitos cujas entrevistas transcritas compuseram nosso corpus de estudo. 
Foram diversos os lexemas e as expressões utilizados pelos entrevistados para descreverem 
suas experiências de medo. 


Verificamos também que não há uma preocupação entre os entrevistados em diferenciar 
do medo os estados de alerta e de insegurança, portanto, tanto alerta como insegurança são 
designados como medo pelos sujeitos. Identificamos que as experiências de medo foram 
reportadas pelos seguintes lexemas e expressões: ficar sozinho, noite/escuro, familiaridade, 
desconhecimento; vestimenta, toxicodependência, motoqueiro e atitude. Esse significado 
dado ao lexema medo é fruto da manipulação ideológica nos sistemas de língua(gem). 
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1 Introdução 


Como é sabido, o português é língua oficial no Brasil, em Portugal, em outras nações da 
África (Angola, Cabo Verde, Guiné-Bissau, Guiné Equatorial, Moçambique e São Tomé e Príncipe), 
da Oceania (Timor Leste), bem como na Região Administrativa de Macau, na Ásia. Segundo 
Perini (2016), a língua padrão escrita nessas diferentes localidades é relativamente uniforme, 
possuindo apenas algumas diferenças de ortografia e estrutura gramatical. Porém, o uso do 
vocabulário regional pode ocasionar certas dificuldades de compreensão no contato entre 
pessoas oriundas desses diferentes locais, haja vista que há muitas variações no âmbito da 
língua falada. 


Ainda de acordo com o autor, a fala dos africanos escolarizados aproxima-se do padrão 
de Portugal. Já no Brasil, onde grande parte da população fala somente o português, a língua 
vem evoluindo e sofrendo influências de línguas indígenas, africanas e de imigrantes. Fato que 
essas influências provocam variações na língua, despertando o interesse de pesquisadores, 
que tomam tais variações como objeto de estudo, como é o caso do estudo apresentado neste 
capítulo. 


Ao adentrarmos nesse campo da linguagem, torna-se relevante abordarmos o termo norma. 
Para tal, apresentamos as proposições de Neves (2017). Para a autora, norma é vista como 
a modalidade linguística normal”, comum”, mas também é entendida como uso regrado, 
como a modalidade sabida por alguns falantes e não por outros. Na primeira acepção, seria 
estabelecida como a frequência de uso, sem que haja valoração, a noção de norma se divide 
por estratos sociais, por períodos e por regiões. Abstrai-se por essa modalidade a frequência 
e o uso. Já na segunda acepção, norma entendida com a inclusão da modalidade padrão no 
uso linguístico, também se divide em diastrática, diacrônica e diatópica”, porém com juízo de 
valor em relação às modalidades, ou seja, umas são mais prestigiadas do que outras. 


Nessas duas concepções, o termo norma se insere na sociedade. Na primeira acepção, o que 
estã em questão é o uso, e, então, a relação com a sociedade aponta para a aglutinação social. 
Na segunda, trata-se do bom uso, e a relação com a sociedade aponta para a discriminação, 
criando-se, por aí, estigmas e exclusões (NEVES, 2017, p. 43). 


Nessa perspectiva, este estudo trata de uma investigação da variação da concordância verbal, 
especificamente no recorte diatópico, isto é, de Belo Horizonte, MG. O corpus C-ORAL-BRASIL 
foi a fonte que permitiu a extração do material utilizado em nossas análises. Os postulados da 
Linguística de Corpus (LC) que ancoram este estudo apontam os caminhos trilhados para a 


2 Vale ressaltar que variação diastrática se refere ao modo de falar de diferentes classes sociais, isto é, por estratos sociais. Por diacrônica 
entende-se a variação da língua por períodos de tempo; já em se tratando de diatópica refere-se à variação de uso da língua por regiões. 
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seleção, análise e descrição dos dados, assegurando, dessa forma, a possibilidade de selecionar 
e analisar dados oriundos de corpora orais. Sendo assim, foram selecionados e analisados 9 
textos em formato .txt de conversação pública, totalizando 13.493 palavras. As análises foram 
realizadas com o auxílio do programa WordSmith Tools 4.0 (SCOTT, 2004), doravante WST. A 
escolha por esta versão se justifica pelo fato de esta se encontrar disponibilizada gratuitamente 
no site do programa. 


Com base nas proposições delineadas acima, apresentamos as seguintes questões de 
pesquisa: (i) que fatos linguísticos relativos à norma da diatopia mineira podem ser identificados 
com o auxílio das ferramentas WordList e Concord? (ii) que fenômenos são resultantes desses 
usos? Ao longo deste trabalho, buscaremos responder aos questionamentos levantados. 


Este capítulo está organizado da seguinte forma: (i) apresentamos as bases teóricas 
que ancoram este estudo; (li) introduzimos o WST, programa utilizado para nossas análises; 
(iii) apresentamos brevemente o C-ORAL-BRASIL; (iv) descrevemos os procedimentos 
metodológicos deste estudo; (v) apresentamos nossas análises, discussões e resultados 
alcançados; e, por fim, (vi) tecemos nossas considerações finais. 


2 Bases teóricas 


Este trabalho está pautado em autores que tratam da LC, como Berber Sardinha (2004, 2005, 
2009), em autores que apresentam o C-ORAL-BRASIL, corpora utilizados nesta pesquisa, os 
quais apontam as características do material utilizado para análise e que será elemento principal 
deste estudo e, futuramente, irá compor os dados utilizados em nossa tese de doutoramento. 


Serão abordados posicionamentos relacionados à concordância verbal na ótica de Cunha 
e Cintra (2007), por avaliarmos a importância de se estabelecer parâmetros que guiarão a 
concepção de língua conforme a norma padrão ou também denominada norma culta e com 
considerações acerca da gramática descritiva na visão de Perini (2016). A escolha por esse 
autor justifica-se uma vez que serão apresentadas e descritas porções de linguagem” (BERBER 
SARDINHA, 2004) capturadas em situações reais de conversação informal e em contextos 
variados. 


Para Cunha e Cintra (2007, p. 510), a concordância verbal pode ser assim definida: 
1. A solidariedade entre verbo e o sujeito, que ele faz viver no tempo, exterioriza-se na 


CONCORDÂNCIA, isto é, na variabilidade do verbo para conformar-se ao número e à pessoa do 


sujeito. 


3 Disponível em: https://www.lexically.net/wordsmith/version4/. Acesso em: 29 jan. 2022. 
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2. A CONCORDÂNCIA evita a repetição do sujeito, que pode ser indicada pela flexão verbal a 


ele ajustada: 


Eu acabei por adormecer no regaço de minha tia. Quando acordei, já era tarde, não vi meu pai. 
(A. Ribeiro, CRG, 257.) 


Conforme preceituam os referidos autores, há regras gerais para estabelecimento da 
concordância verbal, são elas: |) quando ocorrem com um só sujeito ou ii) com mais de um 
sujeito. 


i) Neste caso, o verbo concorda em número e pessoa com seu respectivo sujeito, que pode 
vir explícito ou de modo subentendido; 


ii) de acordo com essa outra regra, o verbo que tem mais de um sujeito (sujeito composto) 
vai para o plural e dependendo da pessoa, irá: para a 1º pessoa do plural, se entre os sujeitos 
figurar um da 12 pessoa. E, para a 2º pessoa do plural, se, não existindo sujeito da 1º pessoa, 
houver um da 22, Assim como exemplificado pelos autores: Tu ou os teus filhos vereis a revolução 
dos espíritos e costumes. (C. Castelo Branco, J, |, 21.). E por fim, para a 32 pessoa do plural, se 
os sujeitos forem da 32 pessoa. 


Em se tratando de Perini (2016), o autor enfoca a descrição da língua falada padrão, que, 
segundo ele, é uma variedade altamente uniforme e socialmente aceita em todo o país; ou 
seja, O autor descreve as construções baseadas na norma urbana e não na norma preconizada 
pelas gramáticas e ensinada nas escolas. Nesta perspectiva, Perini (2016) postula que “erros 
de concordância seriam conforme os seus exemplos que constam na Gramática Descritiva 
do Português Brasileiro que se lê a seguir. 


[21] *Eu chegou ontem de Campo Grande. 
[22] *A Virgínia fizemos um bolo de chocolate. 


Para nós, o que está errado nessas frases é que elas dão indicação contraditória sobre o ocupante 
de um dos papéis temáticos. No caso de [21], o Tema (quem chega de Campo Grande) é indicado 
como sendo “eu” pelo sujeito eu, mas como sendo uma pessoa diferente de “eu” pelo sufixo; e 
em [22] o Agente de fazer seria “a Virgínia” segundo o sujeito, mas seria nós segundo o sufixo. O 
resultado, nos dois casos, é que a frase é semanticamente malformada, e por isso é inaceitável 
(PERINI, 2016, p. 100). 


É possível perceber, por meio dos exemplos apresentados, a diferença de concepção acerca 
da concordância verbal pelos autores das gramáticas tradicional e descritiva aqui referidas. 
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Uzr 


No que diz respeito à LC, pode-se dizer que é um campo que se dedica à criação e análise 
de corpora (plural latim de corpus) (BERBER SARDINHA, 2009, p. 6), em que os conjuntos de 
textos e transcrições de fala encontram-se armazenadas em arquivos de computador. Dessa 
forma, o campo da informática é fator crucial para o estabelecimento da LC contemporânea. 


Um dos grandes agentes dessa revolução é a informática; sem ela, a Lingüística de Corpus 
contemporânea não poderia existir. Assim, o linguista de corpus depende de programas de 
computador para lidar com corpora. Dentre os vários softwares que existem para auxiliar o 
lingúista de corpus, um deles se destaca: WordSmith Tools (BERBER SARDINHA, 2009, p. 6). 


Sendo assim, esta investigação contará com esse conjunto de ferramentas integradas 
(suíte) destinado à análise linguística. Ainda ancorando em Berber Sardinha (2004, p. 38), 
esse estudo é de base empírica e se volta à análise de padrões reais de uso em textos naturais 
e, ainda, é um tipo de pesquisa que se encaixa em outra característica no que se refere ao 
paradigma informacional baseado em concordâncias. 


Na seção seguinte, serão tecidas considerações a respeito deste conjunto de ferramentas 
integradas utilizado neste estudo. 


2.1 WordSmith Tools 


Conforme Scott (2015), é possível verificar a ocorrência de uma lista de palavras ou clusters 
de palavras em textos por meio da ferramenta WordList e localizar palavras dispostas em ordem 
alfabética ou por frequência. Ou seja, por meio desse tipo de busca, o usuário consegue saber 
de quantas palavras são compostos os textos analisados e, ainda, quantas vezes aparece cada 
palavra que o compõe. Ainda é possível realizar linhas de concordância de palavras utilizando 
a ferramenta Concord. 


No que diz respeito ao Concord, buscas detalhadas são possíveis de serem realizadas, 
pois permitem ao usuário ver qualquer palavra ou frase no contexto. E, assim, prosseguir com 
suas respectivas análises. Outra ferramenta que constitui o programa é a KeyWords, que tem 
a função de encontrar palavras-chave, ou melhor, palavras que são chave em vários textos, 
segundo Berber Sardinha (2009). Para acionar essa funcionalidade, faz-se necessário ter um 
conjunto de palavras de referência, pois a ferramenta compara palavras entre textos. Conforme 
recomenda Berber Sardinha (2005), deve compor-se um corpus de referência até 5 vezes maior 
do que o corpus de estudo. Desse modo, para que uma palavra seja considerada chave, ou 
melhor, ter chavicidade, é preciso que sua frequência relativa seja maior no corpus de estudo 
do que no de referência. 
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À guisa de conclusão, o WST é um programa que apresenta certa facilidade de compreensão 
de sua interface e a possibilidade de salvar os resultados em diversos formatos é uma de suas 
vantagens. Desse modo, pode-se retornar aos arquivos salvos para futuras consultas, o que 
nem sempre é possível utilizando outros softwares. 


2.2 C-ORAL-BRASIL: fonte desta pesquisa 


No que diz respeito ao C-ORAL-BRASIL, pode-se afirmar que se constitui como um corpus 
de fala do português do Brasil, com ênfase da diatopia mineira, com foco na capital belo- 
horizontina. Segundo Raso e Mello (2012), os textos que compõem o corpus foram obtidos por 
meio de equipamentos sofisticados com o intuito de garantir a qualidade do material coletado. 
A coleta ocorreu entre 2006 e 2011, portanto, os autores destacam os anos que compreendem 
2008 e 2010 para obtenção dos dados. 


Considera-se relevante mensurar que o corpus em pauta se encontra alinhado por 
enunciados; o que, por sua vez, torna-se um aspecto fundamental, conforme Raso (2012, 
p. 58): De fato, um corpus não alinhado e que assim não permite a correspondência do som 
com o texto (e eventualmente o espectrograma, como nesse caso, ou a imagem) não pode ser 
explorado corretamente. A autora acredita que é imprescindível estudar a fala com consultas 
constantes às informações acústicas, postulando que, sem se verificar sobre elas qualquer 
interpretação e sem categorias linguísticas formadas a partir da observação da modalidade 
que se quer estudar, e não a partir de outra modalidade (RASO, 2012, p. 58), tal estudo não é 
possível. 


Diante da abordagem em relação à fala espontânea, convém salientar que essa é planejada 
enquanto é executada, isto é, uma fala que não realiza um texto planejado anteriormente, 
conforme ratifica Raso (2012). De acordo com os autores da obra C-ORAL-BRASIL (2012), as 
situações em que se deu a captura da fala espontânea ocorreram em caráter informal e em 
contextos diversificados, com o objetivo de aproximar ao máximo da representação de um 
universo aberto. Afirmam, ainda, que essa seleção foi realizada por não existir um contexto 
que seja mais típico do que outros, do mesmo modo que acontece quando diz respeito aos 
contextos formais em que é possível identificar os principais domínios da fala formal. 


3 Procedimentos metodológicos 


O primeiro procedimento metodológico foi a seleção do corpus de estudo, conforme 
apontado na Introdução. Foram utilizados nove textos em formato txt, provenientes do corpus 
C-ORAL-BRASIL, com o intuito de verificar, neste estudo, como se dá o processo de concordância 
verbal de falantes da capital mineira. E, ainda, com a finalidade de se realizar algumas descrições 
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das amostras selecionadas a partir dos seguintes critérios: |) maior incidência de verbos nos 
textos, a partir de análise impressionística, conforme Berber Sardinha (2009); ii) formas não- 
padrão e paradigmas reduzidos, por exemplo, e ficamo (= ficamos; verbo); iii) Formas dos verbos 
estar, ir, por exemplo, tamo (= estamos), tamos (= estamos), tão (= estão), tar (= estar), taria 
(= estaria), tás (= estás), tava (= estava), tavam (= estavam), távamos (= estávamos), vamo 
(= vamos), vão (= vamos). 


Após definidos os critérios, partiu-se para o uso do programa WST versão 4.0 propriamente 
dita. A proposta foi a de utilizar as ferramentas WordList e Concord. Em se tratando da primeira 
ferramenta, seu emprego destinou-se ao levantamento da quantidade de tokens presentes nos 
textos, isto é, com o intuito de verificar a extensão do corpus de estudo. E, ainda, para verificar 
as palavras que se enquadravam nas formas verbais apontadas anteriormente. Quanto ao 
Concord, essa ferramenta foi empregada com o propósito de gerar linhas de concordância 
para as palavras. Essa ferramenta pode apontar padrões que poderão ser analisados conforme 
objetivos do pesquisador. Neste estudo, foram analisados fragmentos, ou melhor, porções de 
linguagem, como os exemplificados na Figura 1, a seguir: 


Figura 1: Recorte das linhas de concordância para tar. 


2152 0 % 0 %l O %libfamcv04.txil 
2142 0% 0 Hl 0 %libfamcv04 txil 


Fonte: Concord. 


É possível observar que a forma do verbo tar (= estar), apresentada na Figura 1, reproduz o 
falar característico de falantes da capital mineira, constituintes do banco de dados do C-ORAL- 
BRASIL. Para se chegar à escolha do corpus de estudo, foi realizada uma leitura superficial 
e geral a fim de encontrar estruturas que caracterizariam ausência de concordância verbal, 
conforme a Gramática Tradicional (GT) ou que ocorresse alguma variação na estrutura dos 
segmentos verbais, como já mencionado anteriormente. 


Diante dessas considerações, e de posse do material que se enquadrava nesses parâmetros, 
partiu-se para a inserção dos textos na janela da ferramenta Concord. Assim, os procedimentos 
seguiram-se na respectiva ordem. 


Inicialmente foi acessada a janela Concord, após sua abertura, utilizou-se a opção Settings, 
em seguida Choose Texts, nessa aba a opção escolher textos foi acionada. Desse modo, 
foi possível procurar os arquivos que deveriam ser inseridos para análise. Neste momento, 
foi feita a seleção e inserção na janela Files Selected dos 9 textos em formato txt. Essa ação 
permitiu que fossem acionados comandos de abertura dos arquivos. Após esse procedimento, 
foi disponibilizada a tela Getting Started em que foi possível inserir arquivo de texto simples 
composto por lemas, os quais possibilitaram gerar linhas de concordâncias, conforme mostra 
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a Figura 1 acima. Com essa opção, a busca pelo objeto de estudo foi facilitada e a extração do 
material para análise foi realizada. 


Vale salientar que, ao clicar 2 vezes em cima da linha de concordância selecionada, é possível 
retornar ao texto para se verificar em qual parte do texto aquele excerto se encontra. E assim, 
estender as análises e compreendê-las dentro do contexto. Verifica-se, por conseguinte, a 
confiabilidade dos dados apresentados para a análise e precisão de detalhes. 


4 Análise e discussão 


Apresentamos os dados coletados após a realização dos procedimentos metodológicos 
descritos na seção anterior. A Figura 2, a seguir, evidencia o total de palavras abstraídas do 
corpus de estudo. 


Figura 2: Estatísticas do corpus. 


[w] 
File é Wind Heli 
N|  Overal) 1| 2 3 4 5 e 7 a oj 
text file Overall famcv01.txt famcv02 txil bfamcv03.txt famcv04 txil bfamcv05.txt bfamcv06 txt famcv07.txti mcv08 tl mcv09 tel 
file size 111.522 11.687 14.368 11.181 15.798 12.597 11.699 11.118 11.058 12.016 
tokens (running words) in text 15.150 1.761 2277 1.930 2.430 1.485 749 1.266 1.509 1.743 
tokens used for word list 1475 1845 1592 1.939 1.475 739 1226 1477 1725 
pes (distiackwerts)| 1.701 367 339 317 323 315 226 392 341 511 
fr Oken ratio (TTR) 13 25 18 20 17 21 31 32 23 30 
standardised TTR 27,23 30,00 22,00 23,50 21,20 24,80 34,50 27,10 34,70 
standardised TTR std.dev. 64,63 
standardised TTR basis 1.000,00 1.000,00 1.000,00 1.000,00 1.000,00 1.000,00 1.000,00 1.000,00 1.000,00 1.000,00 
3 : 
word length std dev 1,93 206 1,81 1,61 1,64 1,51 1,89 2,29 2,39 2,05 
sentences 9,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 
mean (in words 1.499 1.475 1.845 1.592 1.939 1.475 739 1.226 1.477 1.725 
std dev. 358,26 
paragraphs 9,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 
mean (in words 1.499 1.475 1.845 1.592 1.939 1.475 739 1.226 1.477 1.725 
std dev 358,26 
\ headings] 
0 0 0 0 0 0 0 0 0 0 
| stddev| 


9,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 
frequency | alphabetical statistics | fienames | notes | 


76 Typein 111.522 


Fonte: WordList. 


Como se observa, na aba Estatística do corpus, foram encontrados 13.493 tokens e 1.701 
types nos 9 textos analisados. Por meio dessa opção, é possível verificar ainda a quantidade 
de palavras existentes em cada texto, o que nos permite afirmar que são textos equilibrados 
em relação à quantidade de palavras; isto é, verifica-se uma média de 1.600 palavras por texto. 
Segundo Berber Sardinha (2009), esse equilíbrio é importante. Torna-se ainda relevante ressaltar 
que, na perspectiva do referido autor, o corpus utilizado neste estudo é considerado pequeno. 
Após essa verificação das 13.493 palavras que constituíam o corpus de estudo, foi possível 
realizar uma leitura atenta na busca por palavras que se enquadravam dentro da classe dos 
verbos que foram objeto desta pesquisa. Desse modo, despertaram nosso interesse as seguintes 
palavras: ficamo, tamo, tão, tar, taria, tás, tava, tavam, távamos, vamo, vão. 
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Assim, guiados pelo corpus, partimos para a próxima etapa do procedimento metodológico, 
que foi gerar as linhas de concordância, a fim de se verificar as construções proferidas por falantes 
investigados, provenientes da capital mineira. Desse modo, após a eliminação de palavras que 
não se enquadravam em nosso campo de busca, foram encontradas 222 concordâncias para 


ms H hM 


as construções tar”, tão, tava, conforme evidencia a Figura 3, a seguir. 


Figura 3: Linhas de concordância A. 


IC] Concorc 4 
File Edit View Compute Settings Windows Help 
| NiConcordance edadodA AsSIASsLASIAS File % 
lo] que faz faxina lá na casa deles / tava lá / aí / ela virou / e falou ta” 1602 0% 0 % O %libfamcv09 til 67% 
11| gay era eu hhh // outro dia / sô // tava + eu cheguei lá de gravata / ta” 1.576 0 % 0 Al O %libfamcv09 xl 66% 
12 lI “GIL: não // a mãe dele tava numa dúvida // porque /eu ta” 1512 0% 0 % O %libfamcv09 tail 64% 
13 l l l 
14 ll cês são casados // "GIL: é // tá certo // "CAM: ô + "GIL: e tá" 1323 0 HW 0 % 0 %libfamcv09 til 57% 
15| casar comigo // "ADR: mas cês tão casados // cês são intimos/ o'f 1281 0%0O A O %libfamcv09 til 55% 
16| // *GIL: um é engenharia / o outro tá querendo fazer fisica // "ADR: tá” 1066 0 % 0 Al O %libfamcv09 til 46% 
17 l l 
18 | l | | 
19 l l | | 
20 | | | | l 
21| "ADR: // da / artes cênicas // que tá formando agora // cê viu tá* 650 0% 0 Sl O %libfamcv09 til 27% 
| é namorado da yyy // "GIL: ah / tá / eu sempre esqueço // eu tá" 628 0 % 0 % O %libfamcv09 til 26% 
ox | | 
ox I | 
na nosso sono // a gente tava lá dormindo e de repente ta" 183 0 % 0 % O %libfamcvoS td 7% 
/ apagou / Pedro / apagou / e tava / Amanda / Aninha /eeu/ ta" 130 0 HW 0 % O %libfamcvos td 5% 
| que ele chama // bom // aí tava nós / tentando dormir /0/ ta" 13 0% 0 % O %libfamcvoS bl 5% 
última festa / tava tão divertido // tava / Pedro e Amanda dormindo ta” 13 0 % 0 % O %libfamovo9. td 0% 
cê nu sabe da última festa / tava tão divertido // tava / Pedro e o'l 10 0% 0 % O %lbfamov09. td 0% 
concordance | colocates | pit | patterns | clusters | fienames | source text | notes | 
Set e gravata / nu sei o quê / ai a [71] a menina que faz fana lá na casa deles / Lava lá / aí / ela vrou / e falou assim / ah / essa aqui é amiga nossa da famil 


Fonte: Concord. 


Como pode se observar, os falantes do C-ORAL-BRASIL, nesta amostra, empregam 
construções que fogem ao padrão prescritivo da língua. Evidenciamos construções em que a 
forma verbal tava aparece em formas aferéticas (metaplasmos por supressão de fonemas), 
porém tais construções não trazem prejuízo quanto ao sentido que o emissor quis produzir. E, 
ainda, se considerarmos a concordância da linha 10, verifica-se que houve concordância com 
o sujeito da frase. Analisemos a Figura 4: Linhas de concordância B, a seguir, que traz essa 
porção de linguagem, no contexto. 


Figura 4: Linhas de concordância B. 


File 


f ute settinas Windows He p 


*GIL: mas aí / quando ela viu / quem era gay era eu hhh // de gravata / nu sei o quê / aí a [1] a menina que faz faxina lá na casa deles 
lá / aí / ela virou / e falou assim / ah / essa aqui é amiga nossa da familia / e tal / preocupa não que ela é sapatão / tá // aí eu / ô <Lucimar> // 

"ADR: <uau> // 

“GIL: pára / né // aí / a mulher foi olhou meio assim / tipo / pra mim / meio <sem graça / né> // 

“ADR: <agora que> / ela ia se preocupar mesmo hhh // 


Fonte: Concord 


A forma destacada “tava concorda com o sujeito menina”. Nessa perspectiva, se 
considerarmos Perini (2016), podemos concluir que se trata do emprego da norma urbana e 
não da norma preconizada pelas gramáticas. 
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Na sequência, apresentamos mais uma linha de concordância, agora em relação aos itens 
faz, fazer, fazendo e os seguintes resultados foram encontrados, como evidencia a Figura 5, a 


seguir. 


Figura 5: Linhas de concordância C. 


| NiConcordance 
EK] na beira do rio / e tal / os menino fazendo um showzinho lá / um lual REZA 1944 0 % 0 %l 
sei o quê / aí a [/1] a menina que faz faxina lá na casa deles /tava  FAZ* 1.595 0 % 0 % | 65% broibfamcvo9 tl 67% 
engenharia / o outrdtálquerendo fazer física // *ADR: hhh que sexy FAZ* 1.068 0 % 0 %] | 44% broibfamcv09 txl 46% 


| 80% brolbfamcvo9 txd 80% 


desde seis anos // isso nu fui / fazer há um ano atrás / de / FAZ” 4681 0 % 0 %] | 19% broibfamcvo9. td 20% 
o bastante / pra nu querer fazer mais // *GIL: eu nunca fui FAZ* 374 0% 0 %] | 15% broibfamcvo9txd 16% 
Nossa // *FLA: que que a gente faz // eu quero voltar lá //*REN:ô FAZ* 563 0 % 0 %] | 26% broibfamcvos txd 25% 
hora assim / pra ver se Pa tad ezenoo alguma coisa /*REN:/e FAZ* 492 0 % 0 % | 23% broibfamcv08 txi 22% 
o mesmo caminho que a gente faz / normalmente /e deucincoe FAZ” 182 0 % 0 % | 9% broibfamcostd 8% 
também / é [/1] nu [/1] é só ir fazendo as conta aqui // nu FAZ” 127 0 HW 0% | 6% brolbfamcvosix] 6% 

I *FLA: // *CEL: / nó temalque fazer // *SEL: // II *CEL: eu ten FAZ* 564 0 % 0 %] | 41% broibfamcv06txd 35% 
/!*SEL: / uns tempo / ea nu faz barulho não / sabe // *JOL: FAZ* 300 0 %| 0 %] | 22% broibfamcv06 txl 20% 
agora eu tenho que + *MAR: nu faz vergonha futura esposa tá aí // FAZ* 1.445 0 % 0 % | 60% broibfamcvostxd 57% 
II *JOS: po' apertar e' // *CEL: faz de novo // *JOS: uai / varão |! FAZ* 871 0 % 0 %l | 36% broibfamcvostxd 35% 
pedir // cê quer que eu / &ba [/3] fazer de cabeça / ou quer que eu FAZ* 571 0 % 0 % | 24% broibfamcvostdl 24% 
ir //*JOS: II *CEL: II "JOS: bora fazer o cinco / velho MAR: nu FAZ: 513 0 % 0 % | 21% broibfamcvos.td 22% 
filho // *CEL: //*JOS: não // tanto faz // *CAR: uai / mas aí/varão/| FAZ* 453 0 % 0 % | 19% broibfamcvos td 19% 
vacilei / varão // *MAR: / só fazer aí////*CAR: I! *JOS: trêsa FAZ* 175 0 HO % | 7% brobfamevostd 7% 


II "BRU: [453] agora élocêlque faz // "LUC: [454] pera aí // [455]  FAZ* 2730 0 % 0 %] | 96% brolbfamcv04 tx] 96% 
não // "LUC: [424] ocê hue vai fazer // *BRU: [425] // [426] vai // FAZ* 2599 0 % 0 % | 91% broibfamcv0s tx] 91% 
| quero ver como é quelcêfaz // *BRU: [412] tá // [413] então FAZ* 2524 0 % 0 %l | 89% broibfamcv04s tx] 89% 

quer começar adivinhando / ou fazendo a mímica //*CEL: [393] FAZ* 2404 0 % 0 %] | 84% broibfamcv04 tx] 85% 

não só pra mim // [347 cê vai tar fazendoja mímica pra todo mundo 2153 0 % 0 % | 76% broibfamcv04s txi 75% 


coliocates | plot patterns | clusters | filenames | source text | notes 


Fonte: Concord. 


Na Figura 5, observam-se 63 linhas de concordância para essas realizações. As formas 
aferéticas também ocorrem como se observa nas linhas 2, 15 ao se verificar as formas (tava 
= estava), (bora = embora). Analisando as linhas 7, 11,18, 19, 20 e 22, vê-se ainda a cliticização 
(transformação de sintagma nominal em pronome átono ou clítico) do pronome sujeito (ea = 
ela), (ocê = vocês), (cê = vocês). Nas linhas 6 e 8 destacamos as palavras à esquerda de Taz e 
notamos o uso do termo a gente. Vale ressaltar que há uma tendência a substituir o pronome 
nós por a gente, de modo que formas como: fazemos 12 pessoa do plural do modo indicativo, 


como também, faremos 12 pessoa do plural do futuro do subjuntivo, conforme afirma Perini 
(2016), têm ocorrências cada vez mais raras. Verifica-se, ainda, que, há na linha 10, na perspectiva 
de Perini (2016), a simplificação da concordância verbal em (temo = temos). 


E, por fim, para nutrir as análises e descrições, segue a Figura 6. 


File 


Edit 


na beira do rio / e tal / os menino fazendo um showzinho lá / um lual 
sei o quê/aia [/1] a menina que faz faxina lá na casa deles / tava 
engenharia / o outro tá querendo fazer fisica //*ADR: hhh que sexy FAZ 1068 0 % 0 %] | 44% brolbfamcvo9 td] 46% 
desde seis anos // isso nu fui / fazer há um ano atrás / de / FAZ” 461 0 % 0 % | 19% broibfamcv09 tti 20% 


ew 


Figura 6: Linhas de concordância D. 


Compute Settings Windows Help 
| Níoncordance n, SEË Tag] ord alja slal stl Pos] Filej % 


FAZ* 1944 0 % 0 %] | 80% broibfamcvo9txd 80% 
FAZ* 1.595 0 % 0 %] | 65% broibfamcvo9 td 67% 


Fonte: Concord. 
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Considere, a fim de descrição, a porção de linguagem destacada na linha 1 da Figura 6. 
Por via de regra, emprega-se o verbo auxiliar estar” para a concordância do gerúndio, ou com 
o infinitivo do verbo principal antecedido da preposição a, para indicar uma ação durativa, 
continuada. No caso, como prescreve a Gramática Tradicional, aqui na perspectiva de Cunha 
e Cintra (2007), desse modo a construção seria os meninos estavam fazendo um showzinho”. 


Nesse caso, houve a omissão do verbo auxiliar, porém ao se recuperar o contexto é possível 
entender que se trata de os meninos estão fazendo um showzinho. Se analisarmos tal porção 
de linguagem na perspectiva de Perini (2007, p. 237), pode-se inferir que o verbo fazer apareceu 
na construção transitiva, o que fez dele transitivo-ergativo, pois ocorre tanto no coloquial 
quanto no padrão em frases ergativas, como explicitada anteriormente em os meninos estão 
fazendo um showzinho. 


5 Considerações finais 


Neste estudo, apresentamos as finalidades das ferramentas WordList e Concord do WST, as 
quais demonstraram grande funcionalidade e simplicidade para buscar dados e comprovaram 
serem eficazes para facilitar o trabalho de investigação. Ao detalhar o procedimento para se 
gerar uma linha de concordância, cumprimos um elemento que foi proposto inicialmente 
neste estudo. Ao apresentarmos as análises oriundas da explicitação dos resultados obtidos, 
apresentamos algumas possibilidades de análises que emergiram das observações acerca da 
concordância verbal e pautadas nos pressupostos teóricos, como por exemplo, a presença de 
porções de linguagem representada pela Figura 5, linha 10, que evidencia a simplificação da 
concordância verbal, como se vê em (temo = temos). Ainda, ao analisarmos outra porção de 
linguagem apresentada na Figura 6 que evidencia a presença do verbo fazer que apareceu na 
construção transitiva, o que fez dele um verbo transitivo-ergativo. 


As ferramentas WordList e Concord mostraram-se significativas ao auxiliarem na resolução 
dos questionamentos desse estudo. Em relação ao questionamento i) permitiram a extração 
dos fatos linguísticos relativos à norma da diatopia mineira, como se pode ver nos exemplos 
das Figuras 1, 3, 4, 5 e 6 em que foram geradas linhas de concordância para as realizações de 
formas não-padrão e paradigmas reduzidos, por exemplo, ficamo (= ficamos; verbo); formas dos 
verbos estar, ir, por exemplo, tamo (= estamos), tamos (= estamos), tão (= estão), tar (= estar), 
taria (= estaria), tás (= estás), tava (= estava), tavam (= estavam), távamos (= estávamos), vamo 
(= vamos), vão (= vamos). Formas essas que representam a realização do falar característico de 
falantes da capital mineira. Foi possível, ainda, responder ao questionamento ii) do respectivo 
estudo ao verificarmos fenômenos resultantes desses usos, conforme evidencia a Figura 5. A 
referida Figura aponta 63 linhas de concordância para construções aferéticas, cliticização e a 
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simplificação da concordância verbal. Como se pode ver, não nos detivemos apenas em analisar 
e descrever fatos exclusivamente relacionados à concordância verbal. As possibilidades de 
análises proporcionadas pelas ferramentas despertaram a curiosidade e intuição do pesquisador 
que procurou abordar outros elementos que saltaram aos olhos e que aqui não puderam 
passar despercebidos. Ratificamos a importante contribuição da LC com seu aparato teórico- 
metodológico, capaz de traçar direcionamentos para estudos acerca da língua, linguagem. 
E, como área disciplinar que explora corpora computadorizados, embora ainda tímida, tem 
gradativamente crescido no Brasil nas duas últimas décadas (MELLO, 2012, p. 31). 


Conclui-se que tanto a LC quanto o uso do programa de computador WST versão 4.0., 
configuraram-se como importantes âncoras para a extração e análises dos dados sobre a 
concordância verbal, numa perspectiva sociolinguística. 
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